JP5673292B2 - 情報処理装置、データベース更新方法およびデータベース更新用プログラム - Google Patents
情報処理装置、データベース更新方法およびデータベース更新用プログラム Download PDFInfo
- Publication number
- JP5673292B2 JP5673292B2 JP2011074229A JP2011074229A JP5673292B2 JP 5673292 B2 JP5673292 B2 JP 5673292B2 JP 2011074229 A JP2011074229 A JP 2011074229A JP 2011074229 A JP2011074229 A JP 2011074229A JP 5673292 B2 JP5673292 B2 JP 5673292B2
- Authority
- JP
- Japan
- Prior art keywords
- analysis
- key
- analysis key
- unit
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
するための基準となる1または複数の解析キーを、単位解析キーとして抽出する単位解析キー抽出手段と、前記単位解析キーを用いて、前記データベースに含まれる解析キーの構成を把握する構成把握手段と、前記構成把握手段によって把握された構成に従って、前記単位解析キーに関連づけられた情報を用いて、前記データベースに含まれる解析キーに関連づけられる情報を更新するデータベース更新手段と、を備える情報処理装置である。
行う場合に、対象データの表記揺れに影響されずに必要な特徴部分を索出することが出来る。なお、このような特徴部分の索出をより正確に行うために、解析キーには、口語体や主語の省略等の表記揺れに影響されない特徴を正規表現化したものが用いられることが好ましい。
係る情報処理装置は、文書データを解析するための解析キーを含む解析用データが蓄積されるデータベースに接続される情報処理装置であればよい。
図1は、本実施形態に係る文書データ解析装置1のハードウェア構成を示す図である。文書データ解析装置1は、CPU(Central Processing Unit)11、主記憶装置としてのRAM(Random Access Memory)13、ROM(Read Only Memory)12、HDD(Hard Disk Drive)やSSD(Solid State Drive)等の補助記憶装置14、表示装置15としてのディスプレイ、および、入力装置16としてのキーボードやマウス等を備えるコンピュータ(情報処理装置)である。また、文書データ解析装置1は、辞書データベースに接続される。
ッチする文章は、応対および意見に分類され、その文章の意味は「知りたい」である。このため、解析キー「.*知り(たい|たかった)」には、属性情報1「応対」、属性情報2「
意見」および意味情報「知りたい」が関連付けられる。
辞書データベースを更新する。例えば、データベース更新部29は、更新処理内容決定部24によって決定された追加位置に、更新用解析キーおよび当該更新用解析キーに関連付けられた情報を含む解析用データを追加することで、辞書データベースを更新する。
次に、本実施形態に係る文書データ解析装置1によって実行される処理の流れを説明する。なお、本実施形態において示される処理の順序および具体的な処理内容は、本発明を実施するうえで採用できる一例であり、実際の処理順序および具体的な処理内容には、本発明を実施するために当業者が採用可能な様々な処理順序および具体的な処理内容が採用されてよい。
ータの保持順序等を、所定のルールに従って整理し、画一化する統制処理が行われてもよい。例えば、本実施形態において、解析キーは正規表現を用いて定義されているが、正規表現で記述された解析キーの表現を、所定のルールに従って統制することによって、より精度の高い検索結果を得ることが可能な解析キーとすることが出来る。より具体的には、OR条件で結合される文字列の指定順序を、所定のルールに従った順序とすることによって、「.*知り(たい|たかった)」と「.*知り(たかった|たい)」が一致すべき解析キーであることを明らかにし、後の検索によって正しい検索結果が索出されるようにすることが出来る。
を用いた検索が行われ、データベース検索部22は、完全一致する解析キーのみ索出する。なお、ここで「完全一致」とは、比較対象となる情報同士が、過不足なく一致していることを指す。
析キー「.*知り(たい|たかった)」のみが完全一致する解析キーとして索出される。その
他の解析キー(例えば、「.*説明(が|は)?((ない|なし)」や「.*知り(たい|たかった).*(が|のに).*説明(が|は)?((ない|なし)」)は、完全一致とはみなされない。
してステップS207において実行される処理(更新用データを「登録しない」こと、即ち、辞書データベースへの更新用データの追加がキャンセルされること)が、表のNo.0の行に示されている。なお、図9には、属性情報が「属性1」および「属性2」の2つのみ示されているが、属性情報の数は、2つに限定されない。これは、図10についても同様である。
る情報との適合程度を判定する(ステップS211)。
ーに部分一致する解析キーがある場合、処理はステップS217へ進む。一方、比較の結果、ステップS209において索出されたデータに、更新用解析キーに一致する解析キーがない場合、処理はステップS218へ進む。
いて実行される処理(更新用データが、意味情報が完全一致するデータ群の末尾に追加されること)が、表のNo.20および21の行に示されており、適合程度判定部23による判定結果に対応してステップS222において実行される処理(更新用データが、意味情報が部分一致するデータ群の末尾に追加されること)が、表のNo.22および23の行に示されている。また、図10を参照すると、図9の表のNo.20および21に相当する更新用データであるID22および23のデータが、意味情報が完全一致するデータ群の末尾に追加され、図9の表のNo.22および23に相当する更新用データであるID24および25のデータが、意味情報が部分一致するデータ群の末尾に追加されることが分かる。
構成を把握するための最小単位として用いることが出来る。抽出された単位解析キーはテーブルにまとめられ、単位解析キーテーブル(単位解析キー辞書、最小単位辞書)が生成される。
のに).*説明(が|は)?((ない|なし)」である場合、構成把握部26は、単位解析キーを用
いた検索によって、解析キー「.*知り(たい|たかった).*(が|のに).*説明(が|は)?((ない|なし)」が、単位解析キー「.*知り(たい|たかった)」、単位解析キー「.*(が|のに)」および単位解析キー「.*説明(が|は)?((ない|なし)」の3つの単位解析キーによって構成されていることを把握する。把握された構成は、単位解析キーの識別情報の組み合わせによって管理することが出来る。その後、処理はステップS304へ進む。
解析キー「.*説明(が|は)?((ない|なし)」は単位解析キーテーブルに存在するが、「.*(
が|のに)」という単位解析キーが存在しない場合、「.*(が|のに)」は、文字列自体とし
て意味を有さない文字列である。但し、単位解析キー「.*知り(たい|たかった)」および
単位解析キー「.*説明(が|は)?((ない|なし)」の使用頻度が所定の閾値よりも低い場合、追加単位解析キー抽出部27は、「.*知り(たい|たかった).*(が|のに).*説明(が|は)?((
ない|なし)」を、追加単位解析キーとして新たに抽出してもよい。
の単位解析キーの意味情報「知りたい」および「説明がない」が設定される。
「.*知り(たい|たかった)」および単位解析キー「.*説明(が|は)?((ない|なし)」を含む
場合、解析キーの意味情報として、これらの単位解析キーの意味情報「知りたい」および「説明がない」が追加または上書きされる。その後、本フローチャートに示された処理は終了する。
23 適合程度判定部
24 更新処理内容決定部
25 単位解析キー抽出部
26 構成把握部
29 データベース更新部
30 文書データ解析部
Claims (7)
- 文書データを解析するための解析キーを含む解析用データが蓄積されるデータベースに接続される情報処理装置であって、
前記データベースから、解析キーの構成を把握するための基準となる1または複数の解析キーを、単位解析キーとして抽出する際、自身を検索キーとして用いた場合にのみ索出される解析キーを、前記単位解析キーとして抽出する単位解析キー抽出手段と、
前記データベースに含まれる解析キー毎に前記単位解析キーと一致する箇所を示す情報を前記解析キーの構成として把握する構成把握手段と、
前記構成把握手段によって把握された構成において、前記単位解析キーの何れにも該当しない文字列を、追加単位解析キーとして更に抽出する追加単位解析キー抽出手段と、
前記追加単位解析キーに関連づけられた情報を用いて、前記データベースに含まれる解析キーに関連づけられる情報を更新するデータベース更新手段と、
を備える情報処理装置。 - 前記データベースに蓄積されている解析キーを用いて、該データベースを検索するデータベース検索手段を更に備え、
前記単位解析キー抽出手段は、前記データベース検索手段による検索の結果、自身を検索キーとして用いた場合にのみ索出される解析キーを、前記単位解析キーとして抽出する、
請求項1に記載の情報処理装置。 - 前記追加単位解析キーの意味情報として、前記単位解析キーの何れにも該当しない文字列に基づいて生成された意味情報を設定する、追加単位解析キー設定手段を更に備える、
請求項1又は2に記載の情報処理装置。 - 前記データベース更新手段は、前記追加単位解析キーに関連づけられた、該追加単位解析キーの意味情報を用いて、前記データベースに含まれる解析キーに関連づけられる、該解析キーの意味情報を更新する、
請求項1から3の何れか一項に記載の情報処理装置。 - 前記解析キーは、正規表現を用いて定義される、請求項1から4の何れか一項に記載の
情報処理装置。 - 文書データを解析するための解析キーを含む解析用データが蓄積されるデータベースに接続されるコンピュータが、
前記データベースから、解析キーの構成を把握するための基準となる1または複数の解析キーを、単位解析キーとして抽出する際、自身を検索キーとして用いた場合にのみ索出される解析キーを、前記単位解析キーとして抽出する単位解析キー抽出ステップと、
前記データベースに含まれる解析キー毎に前記単位解析キーと一致する箇所を示す情報を前記解析キーの構成として把握する構成把握ステップと、
前記構成把握ステップによって把握された構成において、前記単位解析キーの何れにも該当しない文字列を、追加単位解析キーとして更に抽出する追加単位解析キー抽出ステップと、
前記追加単位解析キーに関連づけられた情報を用いて、前記データベースに含まれる解析キーに関連づけられる情報を更新するデータベース更新ステップと、
を実行するデータベース更新方法。 - 文書データを解析するための解析キーを含む解析用データが蓄積されるデータベースに接続されるコンピュータに、
前記データベースから、解析キーの構成を把握するための基準となる1または複数の解析キーを、単位解析キーとして抽出する際、自身を検索キーとして用いた場合にのみ索出される解析キーを、前記単位解析キーとして抽出する単位解析キー抽出ステップと、
前記データベースに含まれる解析キー毎に前記単位解析キーと一致する箇所を示す情報を前記解析キーの構成として把握する構成把握ステップと、
前記構成把握ステップによって把握された構成において、前記単位解析キーの何れにも該当しない文字列を、追加単位解析キーとして更に抽出する追加単位解析キー抽出ステップと、
前記追加単位解析キーに関連づけられた情報を用いて、前記データベースに含まれる解析キーに関連づけられる情報を更新するデータベース更新ステップと、
を実行させるためのデータベース更新用プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011074229A JP5673292B2 (ja) | 2011-03-30 | 2011-03-30 | 情報処理装置、データベース更新方法およびデータベース更新用プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011074229A JP5673292B2 (ja) | 2011-03-30 | 2011-03-30 | 情報処理装置、データベース更新方法およびデータベース更新用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012208754A JP2012208754A (ja) | 2012-10-25 |
JP5673292B2 true JP5673292B2 (ja) | 2015-02-18 |
Family
ID=47188417
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011074229A Expired - Fee Related JP5673292B2 (ja) | 2011-03-30 | 2011-03-30 | 情報処理装置、データベース更新方法およびデータベース更新用プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5673292B2 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03260764A (ja) * | 1990-03-09 | 1991-11-20 | Ricoh Co Ltd | 翻訳用辞書登録方式 |
JPH0765008A (ja) * | 1993-08-23 | 1995-03-10 | Toshiba Corp | 用語登録制御方法及び同装置 |
JP3380034B2 (ja) * | 1994-05-16 | 2003-02-24 | 松下電器産業株式会社 | 辞書編集装置 |
US7684976B2 (en) * | 2006-05-13 | 2010-03-23 | International Business Machines Corporation | Constructing regular-expression dictionary for textual analysis |
JP2009015395A (ja) * | 2007-06-29 | 2009-01-22 | Toshiba Corp | 辞書構築支援装置および辞書構築支援プログラム |
-
2011
- 2011-03-30 JP JP2011074229A patent/JP5673292B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012208754A (ja) | 2012-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649783B (zh) | 一种同义词挖掘方法和装置 | |
RU2547213C2 (ru) | Присвоение применимых на практике атрибутов данных, которые описывают идентичность личности | |
EP1668541A1 (en) | Information retrieval | |
JP4160548B2 (ja) | 文書要約作成システム、方法、及びプログラム | |
JP2006215717A (ja) | 情報検索装置、情報検索方法および情報検索プログラム | |
JP4237813B2 (ja) | 構造化文書管理システム | |
JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
JP3612769B2 (ja) | 情報検索装置および情報検索方法 | |
CN111368547A (zh) | 基于语义解析的实体识别方法、装置、设备和存储介质 | |
JP5673292B2 (ja) | 情報処理装置、データベース更新方法およびデータベース更新用プログラム | |
JP5673291B2 (ja) | 情報処理装置、データベース更新方法およびデータベース更新用プログラム | |
CN113449063B (zh) | 一种构建文档结构信息检索库的方法及装置 | |
JPWO2020079752A1 (ja) | 文献検索方法および文献検索システム | |
JP2020064482A (ja) | 属性抽出装置および属性抽出方法 | |
JP4592629B2 (ja) | 文書検索支援方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP2018156552A (ja) | 計算機システム及び文章データの検索方法 | |
JP4091586B2 (ja) | 構造化文書管理システム、索引構築方法及びプログラム | |
JP6181890B2 (ja) | 文献解析装置、文献解析方法およびプログラム | |
JP4592556B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JPH0782500B2 (ja) | 未登録語獲得方式 | |
JP2011081494A (ja) | 文書データ解析装置、方法及びプログラム | |
CN117972025B (zh) | 一种基于语义分析的海量文本检索匹配方法 | |
JP4160627B2 (ja) | 構造化文書管理システム及びプログラム | |
JP4217410B2 (ja) | 情報検索装置及びその制御方法、並びにプログラム | |
JP2003141132A (ja) | 情報処理装置およびその方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131224 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140612 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140701 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140829 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141202 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141215 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5673292 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |