JP2009157845A - 情報検索装置 - Google Patents
情報検索装置 Download PDFInfo
- Publication number
- JP2009157845A JP2009157845A JP2007338348A JP2007338348A JP2009157845A JP 2009157845 A JP2009157845 A JP 2009157845A JP 2007338348 A JP2007338348 A JP 2007338348A JP 2007338348 A JP2007338348 A JP 2007338348A JP 2009157845 A JP2009157845 A JP 2009157845A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- syntax tree
- paraphrase
- target sentence
- replacement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 abstract description 85
- 238000010586 diagram Methods 0.000 description 15
- 230000005540 biological transmission Effects 0.000 description 9
- 238000006467 substitution reaction Methods 0.000 description 3
- 239000000470 constituent Substances 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】構文解析部4は、入力文の構文木を生成する。文節特定部5は、検索対象文と入力文との間で一致する自立語を含む文節を特定する。文節特定部5は、一致する自立語を含む文節を特定した場合に、一致した自立語を含む入力文の文節を示す文節IDを、一致文節IDとして検索対象文記憶部11の検索対象文管理テーブルに格納する。言い換え対象文決定部10は、入力文の構成と検索対象文の構成を比較し、一方の文を基準文とし、他方の文を言い換え対象文と決定する。判断部6及び置換部7は、言い換え対象文に含まれる部分構文木の置換処理を行なう。類似度判定部8は、置換された言い換え対象文と入力文との間で類似度を判定する。表示処理部9は、類似度判定部8による判定結果に基づいて、検索対象文の出力処理を行なう。
【選択図】 図1
Description
(第1の実施形態)
まず、本発明の第1の実施形態について説明する。
図1は、本発明の第1の実施形態における情報検索装置の構成例を示すブロック図である。
図2に示したハードウェア構成は、図1に示した情報検索装置1の各部の機能を具現化する構成である。このハードウェア構成として、前述したプログラムなどが格納されるROM22と、当該ROM22内のプログラムに従って当該装置の各部を制御するCPU21と、当該装置の制御に必要な種々のデータを記憶するRAM(Random Access Memory)23と、処理結果等を表示するディスプレイ装置といった表示部25と、ネットワークに接続する通信I/F24と、ハードディスクドライブなどの外部記憶装置26と、利用者が入力する際に用いる入力デバイス27とを備え、それぞれがバス28により接続される。情報検索装置1は、これらの構成を備えた一般的なコンピュータに適用することができる。
検索対象文記憶部11は、入力文による検索の対象となる複数の検索対象文についての構文解析結果を示す検索対象文管理テーブルを予め記憶している。図3に示すように、検索対象文管理テーブルでは、文IDと、検索対象文と、文節IDと、文節の自立語と、当該自立語の品詞と、親IDと、親の文節との関係と、一致文節IDとを対応付けて保持する。
図4に示す構文木は、図3に示した検索対象文管理テーブル上の文ID「1」についての構文木であり、当該検索対象文管理テーブルのフィールド情報である親IDに基づいて構文木構造を実現している。
図5に示すように、置換ルール管理テーブルは、分類ID、ルールID、対象パタン、置換パタン、係り受け条件、品詞条件および一致条件を対応付けて保持する。なお、分類とは、文の区切りとなる所定のまとまりを指す。本実施形態では分類として、名詞句、動詞句、格共有等が挙げられる。
図6に示す例は、図5に示した置換ルールテーブル上の対象パタンの構文木と、置換パタンの構文木とを示した例であり、所定の条件を満たした場合に、対象文に含まれている対象パタンの構文木が置換パタンの構文木に置換される。
記憶部2の置換順序記憶部13は、置換ルール管理テーブル上で置換ルールが設定される分類の呼び出し順序を保持する置換順序管理テーブルを記憶する。図7に示すように、置換順序管理テーブルは、分類IDとルール分類とを対応付けて保持する。そして、本実施形態にかかる情報検索装置1では、当該置換順序管理テーブルの上のレコードから順に置換処理を行なう。つまり、情報検索装置1は、図7に示した置換順序管理テーブルにしたがった場合、最初に動詞句の置換ルールで処理を行ない、次に名詞句の置換ルールで処理を行ない、最後に格共有の置換ルールで処理を行なうことになる。
構文解析部4は、入力部3が処理した入力文に対して構文解析を行ない、当該入力の文節毎の自立語間の係り受け構造を示した構文木を生成する。また、各文節の自立語の品詞の判定処理も行なう。
図8は、本発明の第1の実施形態における情報検索装置の構文解析部による入力文「読みを付与し送信する」の構文解析結果を示す図である。
図8に示した例では、構文解析部4は、入力文が3つの文節を含み、名詞「読み」が動詞「付与」に「を」の関係で係り、動詞「付与」が動詞「送信」に「並列」の関係で係ると解析している。
図9に示した検索対象文管理テーブルは、図3に示した検索対象文と、図8に示した入力文とを文節特定部5で処理した結果を示すテーブルである。
置換履歴格納部15は、言い換え後の文、つまり置換部7により行われた置換処理後の言い換え対象文を処理ステップ毎に格納する。
表示処理部9は、類似度判定部8による判定結果に基づき、検索対象文を出力する。
次に、判断部6及び置換部7は、言い換え対象文に含まれる部分構文木の置換処理を行なう(ステップS5)。
そして、表示処理部9は、類似度判定部8による判定結果に基づいて、検索対象文の出力処理を行なう(ステップS7)。
次に、文節特定部5は、入力文の文節ID「i」の自立語と、現在処理対象である検索対象文の文節ID「j」の自立語とが一致するか否か判断する(ステップS12)。また、文節特定部5は、一致しないと判断した場合(ステップS12のNO)、これら文節ID間について特に設定処理を行わない。
図12に示すように、一致文節管理テーブルは、入力文の各文節IDに対して、検索対象文の文ID毎に一致した文節IDである一致文節IDを格納している。
上述した処理手順により、各検索対象文の文節と入力文の文節とについて、同じ自立語を含む文節間での対応付けがなされたことになる。
まず、言い換え対象文決定部10は、入力文の文節数nをカウントし、検索対象文の文節数mをカウントする(ステップS21)。次に、言い換え対象文決定部10は、nとmの値を比較する。
一方、言い換え対象文決定部10は、nがm以下ならば、言い換え対象文を検索対象文とし、基準文を入力文とする(ステップS22→S24)。
判断部6は、他の置換ルールがあると判断した場合(ステップS33のYES)、当該他の置換ルールを次に用いる置換ルールとして設定する(ステップS34)。
図5に示した置換ルールでは、例えば分類ID「1」においては2つの置換ルールが存在するため、判断部6は、処理対象の言い換え対象文の各文節がルールID「1」の条件に一致しなかった場合に、ルールID「2」の条件に一致するか否かの判断を行なうことになる。このように判断部6は、小さい数のルールIDから順に置換ルールと処理対象の言い換え対象文の各文節との一致の有無を判断することになる。
そして、置換部7は、置換履歴格納部15に対し、当該置換履歴格納部15に格納されていない文節のうち置換された構文木までの文節を格納する(ステップS36)。
そして、判断部6は、処理を行っていない言い換え対象文がないと判断した場合(ステップS42のYES)、処理を終了する。
図15に示した例は、図8に示した入力文と図3に示した検索対象文管理テーブル上の文IDが「1」である検索対象文との比較の結果、入力文を言い換え対象文とした場合の言い換え処理結果である。
図16は、本発明の第1の実施形態における情報検索装置による置換された言い換え対象文と基準文との間での類似度の判定処理手順の一例を示すフローチャートである。
まず、類似度判定部8は、変数iの初期値として「1」を設定する(ステップS51)。次に、類似度判定部8は、リンク一致数に初期値として「0」を設定する(ステップS52)。このリンク一致数とは、置換処理後の言い換え対象文と基準文との間で文節に含まれる自立語と、当該文節の親の文節に含まれる自立語とが一致した数を示したものである。類似度判定部8は、当該リンク一致数が所定の基準値以上の場合に、言い換え対象文と基準文とが類似しているものと判定する。
図17に示すように、表示処理部9は、類似している文ID「1」、「3」の検索対象文に対しては入力文と類似している旨を示す「○」を表示し、文ID「2」の検索対象文に対しては入力文と非類似である旨を示す「×」を表示する。さらに表示処理部9は、置換履歴格納部15を参照して、分類毎の置換過程を表示する。
また、表示処理部9は、文ID「2」の検索対象文に対して、当該検索対象文「読みを生成し、音声の送信を実行する」から「読みを生成し、音声を送信する」までの置換過程の表示を行う。
次に、本発明の第2の実施形態について説明する。なお、以下の各実施形態に係る情報検索装置の構成は図1に示したものと基本的にほぼ同様であるので同一部分の説明は省略する。
図18は、本発明の第2の実施形態における情報検索装置の言い換え対象文決定部による、入力文と検索対象文を比較し、言い換え対象文と基準文を決定する処理手順の一例を示すフローチャートである。
図19は、本発明の第2の実施形態における情報検索装置により管理する除外表現管理テーブルの一例を表形式で示す図である。図19に示した除外表現管理テーブルの情報は記憶部2に予め記憶される。
次に、言い換え対象文決定部10は、入力文に含まれる文節のうち除外表現管理テーブルで管理される文節を除いた文節数である除外文節数をカウントし、変数n2に設定する。また、言い換え対象文決定部10は、検索対象文に含まれる文節のうち除外表現管理テーブルで管理される文節を除いた文節数である除外文節数をカウントし、変数m2に設定する(ステップS62)。次に、言い換え対象文決定部10は、n1からn2を引いた値を変数Nに設定する。また、言い換え対象文決定部10は、m1からm2を引いた値をMに設定する(ステップS63)。
言い換え対象文決定部10は、NがMより大きければ、言い換え対象文を入力文とし、基準文を検索対象文とする(ステップS64→S65)。また、言い換え対象文決定部10は、NがM以下であれば、言い換え対象文を検索対象文とし、基準文を入力文とする(ステップS64→S66)。
次に、本発明の第3の実施形態について説明する。図21は、本発明の第3の実施形態における情報検索装置の言い換え対象文決定部による、入力文と検索対象文を比較し、言い換え対象文と基準文を決定する処理手順の一例を示すフローチャートである。
この結果、表示処理部9は、文ID「5」の検索対象文の文に対して、類似している旨を示す「○」の表示および入力文「読みを付与し、送信する」から、「読みを送信する。」までの置換過程の表示を行う。
Claims (5)
- 入力文の入力を受け付ける入力手段と、
前記入力文による検索の対象となる検索対象文、当該検索対象文における文節毎の自立語、および前記自立語を木構造のノードとした自立語間の係り受け構造を保持する構文木を対応付けて記憶する文記憶手段と、
前記入力文を構文解析して当該入力文の自立語間の係り受け構造を保持する構文木を生成する構文木生成手段と、
前記入力文の構成および前記検索対象文の構成を予め定められた比較基準により比較し、比較結果により一方の文を言い換え対象文と決定し他方の文を言い換えの基準文と決定する言い換え対象文決定手段と、
複数の自立語間の係り受け構造を示す第1の部分構文木パタン、当該第1の部分構文木パタンの言い換えとなる自立語間の係り受け構造を示すとともに前記第1の部分構文木パタンより前記ノードの数が少ない第2の部分構文木パタン、および前記第1の部分構文木パタンを前記第2の構文木パタンに置換するための置換条件を対応付けて記憶する構文木パタン記憶手段と、
前記言い換え対象文に含まれる部分構文木が、前記構文木パタン記憶手段により記憶する前記置換条件に一致するか否か判断する判断手段と、
前記置換条件に一致すると前記判断手段により判断した場合に、前記言い換え対象文に含まれる前記部分構文木のうち当該置換条件に対応付けられる前記第1の部分構文木パタンと一致する部分構文木を、当該置換条件と対応付けられる前記第2の部分構文木パタンで置き換える置換手段と、
前記基準文の構文木、および前記置換手段により置き換えられた前記言い換え対象文の構文木の類似度を判定する類似度判定手段と、
前記類似度判定手段により判定した類似度が所定の条件を満たす場合に、当該判定した類似度の判定に関わる前記検索対象文を検索結果として出力する出力手段と
を備えることを特徴とする情報検索装置。 - 前記言い換え対象文決定手段は、前記入力文を構成する自立語の数および前記検索対象文を構成する自立語の数を前記比較基準とし、自立語の数が多い方の文を言い換え対象文とし、自立語の数が少ない方の文を基準文とする
ことを特徴とする請求項1に記載の情報検索装置。 - 前記言い換え対象文決定手段は、前記入力文や前記検索対象文を構成する自立語の数を算出する際の除外対象の単語のリストをさらに保持し、前記入力文や前記検索対象文について、前記除外対象の単語を除いた自立語の数を算出する
ことを特徴とする請求項2に記載の情報検索装置。 - 前記言い換え対象文決定手段は、前記入力文を構成する自立語のうち当該入力文の自立語および前記検索対象文の自立語の間の一致情報を付与された自立語の構文木上での最大距離、および前記検索対象文を構成する自立語のうち前記一致情報を付与された自立語の構文木上での最大距離を前記比較基準とし、最大距離が大きい方の文を言い換え対象文とし、最大距離が小さい方の文を基準文とする
ことを特徴とする請求項1に記載の情報検索装置。 - 前記構文木パタン記憶手段は、文の区切りとなる所定のまとまり毎に、前記第1の部分構文木パタン、前記第2の部分構文木パタン、および前記置換条件を対応付けて記憶し、
前記判断手段は、前記所定のまとまり毎に、前記言い換え対象文に含まれる部分構文木が、前記構文木パタン記憶手段が記憶する前記置換条件に一致するか否か判断する
ことを特徴とする請求項1乃至4のいずれかに記載の情報検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007338348A JP5038881B2 (ja) | 2007-12-27 | 2007-12-27 | 情報検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007338348A JP5038881B2 (ja) | 2007-12-27 | 2007-12-27 | 情報検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009157845A true JP2009157845A (ja) | 2009-07-16 |
JP5038881B2 JP5038881B2 (ja) | 2012-10-03 |
Family
ID=40961751
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007338348A Expired - Fee Related JP5038881B2 (ja) | 2007-12-27 | 2007-12-27 | 情報検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5038881B2 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001188678A (ja) * | 2000-01-05 | 2001-07-10 | Mitsubishi Electric Corp | 言語事例推論装置,言語事例推論方法及び言語事例推論プログラムが記述された記憶媒体 |
JP2002123546A (ja) * | 2000-10-17 | 2002-04-26 | Canon Inc | 文書検索装置、文書検索方法、及び、記録媒体 |
JP2003108583A (ja) * | 2001-09-27 | 2003-04-11 | Seiko Epson Corp | 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体 |
JP2003167898A (ja) * | 2001-12-04 | 2003-06-13 | Tokyo Soft Kk | 情報検索システム |
JP2007041767A (ja) * | 2005-08-02 | 2007-02-15 | Nec Corp | テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム |
-
2007
- 2007-12-27 JP JP2007338348A patent/JP5038881B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001188678A (ja) * | 2000-01-05 | 2001-07-10 | Mitsubishi Electric Corp | 言語事例推論装置,言語事例推論方法及び言語事例推論プログラムが記述された記憶媒体 |
JP2002123546A (ja) * | 2000-10-17 | 2002-04-26 | Canon Inc | 文書検索装置、文書検索方法、及び、記録媒体 |
JP2003108583A (ja) * | 2001-09-27 | 2003-04-11 | Seiko Epson Corp | 言語文を用いた検索装置、検索システム、検索方法、プログラム、および記録媒体 |
JP2003167898A (ja) * | 2001-12-04 | 2003-06-13 | Tokyo Soft Kk | 情報検索システム |
JP2007041767A (ja) * | 2005-08-02 | 2007-02-15 | Nec Corp | テキストマイニング装置、テキストマイニング方法、テキストマイニングプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5038881B2 (ja) | 2012-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6828335B2 (ja) | 検索プログラム、検索装置および検索方法 | |
US9626622B2 (en) | Training a question/answer system using answer keys based on forum content | |
US10430405B2 (en) | Apply corrections to an ingested corpus | |
JP5071373B2 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
JPWO2009087996A1 (ja) | 情報抽出装置及び情報抽出システム | |
CA2809021C (en) | Systems and methods for lexicon generation | |
CN108121455A (zh) | 识别纠正方法及装置 | |
JP2013161371A (ja) | テキスト検索装置及びプログラム | |
JP2006251935A (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP2009059300A (ja) | 訳語学習のためのデータを作成する装置、方法、およびプログラム | |
US20160085760A1 (en) | Method for in-loop human validation of disambiguated features | |
JP4745417B2 (ja) | 情報検索装置およびプログラム | |
KR20210099661A (ko) | 주석이 달린 자연어 구문들을 생성하는 방법 및 장치 | |
JP5038881B2 (ja) | 情報検索装置 | |
KR101835994B1 (ko) | 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치 | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
CN116127003A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
JP2011090463A (ja) | 文書検索システム、情報処理装置およびプログラム | |
JP2011154590A (ja) | プログラムおよび情報処理装置 | |
JP2005173847A (ja) | 情報検索装置、情報検索方法、プログラム及び該プログラムを記録した記録媒体 | |
CN114676155A (zh) | 代码提示信息的确定方法、数据集的确定方法及电子设备 | |
JP5160120B2 (ja) | 情報検索装置、情報検索方法及び情報検索プログラム | |
JP5733285B2 (ja) | 検索装置、検索方法及びプログラム | |
KR100918489B1 (ko) | 텍스트 비교 방법 및 텍스트 비교 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100315 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120529 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120612 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120706 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150713 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5038881 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |