JP2007213157A - Example sentence retrieval device and example sentence retrieval method - Google Patents
Example sentence retrieval device and example sentence retrieval method Download PDFInfo
- Publication number
- JP2007213157A JP2007213157A JP2006030103A JP2006030103A JP2007213157A JP 2007213157 A JP2007213157 A JP 2007213157A JP 2006030103 A JP2006030103 A JP 2006030103A JP 2006030103 A JP2006030103 A JP 2006030103A JP 2007213157 A JP2007213157 A JP 2007213157A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- word string
- search
- sentence
- pattern information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
本発明は、検索技術に関し、特に語句の用例を参照するための用例文検索装置およびそれに適用される用例文検索方法に関する。 The present invention relates to search technology, and more particularly to an example sentence search apparatus for referring to phrase examples and an example sentence search method applied thereto.
外国語などの文章を作成する際に語句の用例文を参照することは、正しい文書作成に対して有効な手段である。近年では文書を電子ファイルとして保存することが一般的になり、情報処理装置の処理速度や電子データの記憶容量などハードウェアの性能も向上しているため、それらを利用して、サーバなどに保存された多くの文書からキーワードを元に用例文を取得する用例文検索の技術が研究されている。例えばkwic(Keyword In Context)索引付けによる検索ツールとして、入力した語句から単語リストやその単語がどのような文脈で使用されたかを示すkwicコンコーダンスを作成するソフトウェアも提供されている。 Referencing the example sentence of a phrase when creating a sentence such as a foreign language is an effective means for creating a correct document. In recent years, it has become common to save documents as electronic files, and hardware performance such as the processing speed of information processing devices and the storage capacity of electronic data has improved. Techniques for retrieving example sentences from a large number of documents obtained based on keywords have been studied. For example, as a search tool based on kwic (Keyword In Context) indexing, software that creates a word list and kwic concordance indicating the context in which the word was used from an input phrase is also provided.
一方、ウェブサイトが提供する検索エンジンを利用して用例文検索を行うこともできる。この場合ユーザはキーワードを検索エンジンに入力することにより、検索結果として表示されたキーワード周辺の文字列を閲覧し、キーワードの用例を確認する。さらにキーワード周辺の文字列のパターンからマッチングを行い、頻出フレーズに相当する部分文字列を抽出、表示し、その部分文字列を含む文書を用例文として検索するシステムなども提供されている(例えば非特許文献1参照)。
ところがユーザが頻出フレーズについて調べようとした場合、例えばkwicコンコーダンスを用いると、フレーズに含まれるキーワードから作成された大量なコンコーダンスから自分でフレーズを確認していく作業が必要となる。また、キーワード周辺の情報から用例の部分的情報は取得できるが、コンコーダンスの表示が文単位でないと文章の全体的な把握が困難な場合がある。検索エンジンを利用して頻出フレーズを抽出するシステムにおいては、検索対象がウェブページであるため、分野に特化した検索ができず、表示結果が膨大となり検索の効率が悪い。また、フレーズマッチングのシステムを用いた場合、単純なキーワード検索では、キーワードの後方の文脈のみが考慮されるため、必要な情報が取得できない場合がある。 However, when a user tries to check a frequent phrase, for example, when kwic concordance is used, it is necessary to check the phrase by himself from a large number of concordances created from keywords included in the phrase. In addition, partial information of the example can be acquired from information around the keyword, but it may be difficult to grasp the entire sentence unless the display of concordance is in sentence units. In a system that uses a search engine to extract frequent phrases, the search target is a web page, so a search specialized for the field cannot be performed, and the display result becomes enormous, resulting in poor search efficiency. When a phrase matching system is used, a simple keyword search only considers the context behind the keyword, so that necessary information may not be acquired.
本発明はこうした状況に鑑みてなされたものであり、その目的は、用例文に係る有用な情報をユーザが効率的に取得できる技術を提供することにある。 This invention is made | formed in view of such a condition, The objective is to provide the technique in which a user can acquire the useful information which concerns on an example sentence efficiently.
本発明のある態様は、用例文検索装置に関する。この用例文検索装置は、ユーザが指定した文書集合から所定の規則に従い単語列パターンを抽出するパターン抽出部と、パターン抽出部が抽出した単語列パターンと、文書集合に属する文書に含まれ、当該単語列パターンを含む文章とを対応付けたパターン情報を記憶するパターン情報記憶部と、検索キーワード入力を受け付け、検索キーワードおよび検索キーワードと関連性を有する語句のいずれかを含む単語列パターンをパターン情報記憶部が記憶するパターン情報から検出する検索実施部と、検索実施部が検出した単語列パターンおよびそれに対応付けられた文章の少なくとも一部を出力するパターン情報出力部と、を備えることを特徴とする。 One embodiment of the present invention relates to an example sentence search device. This example sentence search device includes a pattern extraction unit that extracts a word string pattern from a document set designated by a user according to a predetermined rule, a word string pattern extracted by the pattern extraction unit, and a document that belongs to the document set. A pattern information storage unit that stores pattern information that associates a sentence including a word string pattern, and a pattern information that receives a search keyword input and includes a word string pattern that includes any one of the search keyword and a phrase related to the search keyword. A search execution unit that is detected from pattern information stored in the storage unit, and a pattern information output unit that outputs at least a part of a word string pattern detected by the search execution unit and a sentence associated therewith, To do.
ここで「単語列パターン」は所定の数の単語で構成され、順序情報を含んだ単語集合である。連続して同一である2つの単語集合を同一の単語列パターンとしてもよいし、不連続だが同一の単語集合が同一の順序で出現する2つの単語集合を同一の単語列パターンとしてもよい。したがって「所定の規則」とは、抽出する単語列パターンを構成する単語の数または数の範囲、連続同一を同一単語列パターンとするか不連続も許すか、文書集合に出現する頻度のしきい値、すなわち何度出現したら単語列パターンとして抽出するか、など、抽出に関連する条件であればいずれでもよく、また、抽出に利用する手法なども含んでよい。 Here, the “word string pattern” is a word set including a predetermined number of words and including order information. Two word sets that are the same in succession may be the same word string pattern, or two word sets that are discontinuous but appear in the same order may be the same word string pattern. Therefore, the “predetermined rule” refers to the number of words constituting the word string pattern to be extracted or the range of the numbers, whether the same word string pattern is allowed to be consecutively identical or discontinuous, or the frequency that appears in the document set Any value may be used as long as it is a condition related to extraction, such as whether it is extracted as a word string pattern when it appears many times, and a technique used for extraction may also be included.
「検索キーワードと関連性を有する語句」とは、検索キーワードと同一の意味を有し異なる言語の語または句、検索キーワードの類義語、またはそれらの組み合わせなど、一般的に検索キーワードと対応付けることのできる語句のいずれでもよい。 “Phrase having relevance to search keyword” can generally be associated with a search keyword such as a word or phrase in a different language having the same meaning as the search keyword, a synonym of the search keyword, or a combination thereof. Any of the phrases can be used.
本発明の別の態様は、用例文検索方法に関する。この用例文検索方法は、検索キーワード入力を受け付けるステップと、あらかじめ記憶された、ユーザ指定の文書集合から所定の規則に従い抽出された単語列パターンと、文書集合に属する文書に含まれ、当該単語列パターンを含む文章とを対応付けたパターン情報を参照し、検索キーワードおよび検索キーワードと関連性を有する語句のいずれかを含む単語列パターンを検出するステップと、検出された単語列パターンのうち少なくとも一部の単語列パターンに対応付けられた文章を出力するステップと、を含むことを特徴とする。 Another aspect of the present invention relates to an example sentence search method. This example sentence search method includes a step of receiving a search keyword input, a word string pattern that is stored in advance and extracted from a user-specified document set according to a predetermined rule, and a document belonging to the document set. A step of detecting a word string pattern including any one of a search keyword and a phrase related to the search keyword with reference to pattern information in which a sentence including the pattern is associated; and at least one of the detected word string patterns Outputting a sentence associated with the word string pattern of the part.
本発明のさらに別の態様は、記録媒体に関する。この記録媒体は、文書集合から所定の規則に従い抽出された単語列パターンと、当該単語列パターンの文書集合における出現頻度と、文書集合に属する文書に含まれ、当該単語列パターンを含む文章とを対応付けて記録することを特徴とする。 Yet another embodiment of the present invention relates to a recording medium. The recording medium includes a word string pattern extracted from a document set according to a predetermined rule, an appearance frequency of the word string pattern in the document set, and a sentence included in the document belonging to the document set and including the word string pattern. It is characterized by recording in association with each other.
なお、以上の構成要素の任意の組合せ、本発明の表現を方法、装置、システムなどの間で変換したものもまた、本発明の態様として有効である。 It should be noted that any combination of the above-described constituent elements and a representation of the present invention converted between a method, an apparatus, a system, etc. are also effective as an aspect of the present invention.
本発明によれば、ユーザは所望の語句の用例などの情報を容易に確認することができる。 According to the present invention, the user can easily confirm information such as examples of desired phrases.
図1は本実施の形態における用例文検索装置の全体的な構成を示している。用例文検索装置10は、用例文検索装置10を統括的に制御するとともに、蓄積された文書から単語列パターン(以下、単にパターンとも呼ぶ)を抽出し、検索処理を行うプロセッサ15を含む。用例文検索装置10はさらに、ユーザが入力指示を行う入力装置20、文書データを蓄積して記憶する文書記憶部70、抽出したパターンの情報を記憶するパターン情報記憶部80と、検索結果を出力する出力装置30を含む。プロセッサ15、入力装置20、出力装置30、文書記憶部70、パターン情報記憶部80は、バス90によって相互にデータの伝送を行う。
FIG. 1 shows the overall configuration of an example sentence search apparatus according to the present embodiment. The example
用例文検索装置10は文書作成装置、または情報処理装置を兼ねていてもよい。この場合、プロセッサ15は文書作成機能や電子メール作成機能を提供するアプリケーションソフトウェアをさらに実行してもよく、入力装置20、出力装置30は、それらのアプリケーションソフトウェアに適応した入力データ、出力データの処理をそれぞれ行う。
The example
入力装置20はキーボード、マウス、トラックボールなど一般的に用いられる入力装置のいずれか、またはその組み合わせでよく、文書記憶部70に記憶した文書集合からパターンを抽出する指示や、検索するキーワードなどの入力をユーザが行うためのインターフェースである。文書記憶部70およびパターン情報記憶部80は、ハードディスクや、DVD(Digital Versatile Disk)、CD(Compact Disk)などの記録媒体の読取装置、DRAM(Dynamic Random Access Memory)、SRAM(Static Random Access Memory)などのメモリなど、データ量や検索装置の形態に応じたハードウェアから適宜選択する。
The
文書記憶部70は、用例文検索装置10にネットワークを介して接続したサーバなどに備えられていてもよい。文書記憶部70には、特定分野の論文や電子メールなどユーザが参照したいカテゴリに属し、完成された複数の文書データを記憶させる。例えば英語の論文を作成するユーザは、自分が過去に閲覧した同分野の英語論文データを蓄積していったり、同分野の論文誌に過去に発表された論文の電子データを入手して記憶させたりしてよい。本実施の形態では、同分野の論文やアブストラクト、あるいは同じ種類の文書など、同一のカテゴリに属する文書を文書集合としてパターンの抽出を行い、用例文の検索対象とすることにより、カテゴリで特有の言い回しや語句の用法、定型句などを効率よく検索できる。
The
文書記憶部70にはカテゴリごとに複数の文書集合のデータを記憶させてもよい。この場合ユーザは、自分の作成したい文書のカテゴリなどに合わせて一の文書集合を選択して後に述べるパターン抽出を行う。パターン抽出に先立ち、文書データはテキストデータに変換されるため、文書記憶部70に記憶させる文書データは、当該変換処理に対応できるフォーマットを有する。
The
図2はプロセッサ15の構成をより詳細に示している。プロセッサ15は、文書記憶部70に記憶された文書データ、またはユーザが選択した文書集合の文書データに含まれるパターンを抽出し、パターン情報ファイルを生成するパターン抽出部40、および、ユーザが入力したキーワードなどを含むパターンおよび用例文の検索を行う検索部60を含む。
FIG. 2 shows the configuration of the
パターン抽出部40は、入力装置20におけるユーザの入力指示に従い、文書記憶部70に記憶された文書データを読み出し、テキストデータへ変換するテキスト化部42、テキストデータを1行1文の1つのテキストファイルに変換する変換部44、1行1文のテキストファイルから所定のアルゴリズムにより頻出するパターンを抽出する抽出実施部46、抽出したパターンとその頻度、およびそのパターンを含む文章とを対応付けたパターン情報を、パターン情報ファイルとしてパターン情報記憶部80に記憶させるパターン情報書き込み部48を含む。
The
検索部60は、入力装置20におけるユーザの検索キーワード入力に従い、パターン情報記憶部80に記憶されたパターン情報ファイルのデータから検索キーワードを含むパターンを検出する検索実施部62、検索キーワードを含むパターンのリストとそれぞれの頻度を出力装置30に出力するパターン出力部64、および、入力装置20におけるユーザのパターン選択指示に従い、選択されたパターンを含む文章を用例文として出力装置30に出力する用例文出力部66を含む。
The
図2において、様々な処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、CPU、メモリ、その他のLSIで構成することができ、ソフトウェア的には、言語処理機能のあるプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。 In FIG. 2, each element described as a functional block for performing various processes can be configured by a CPU, a memory, and other LSIs in terms of hardware, and a program having a language processing function in terms of software. Etc. Therefore, it is understood by those skilled in the art that these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof, and is not limited to any one.
ここで抽出実施部46が行う、テキストデータからの単語列パターン抽出について説明する。今、次のような英文データがあるとする。
(1) Three types of thick branes e de Sitter and Sitter brane are considered.
(2) The cases of Dirac Proca and Maxwell fields are considered.
(3) Some issues related to quantum anomaly induced effects due to matter are considered.
(4) The example of a five dimensional BF theory with a boundary brane is considered.
Here, the word string pattern extraction from the text data performed by the
(1) Three types of thick branes e de Sitter and Sitter brane are considered .
(2) The cases of Dirac Proca and Maxwell fields are considered .
(3) Some issues related to quantum anomaly induced effects due to matter are considered .
(4) The example of a five dimensional BF theory with a boundary brane is considered .
これらのデータにおいて、連続単語列“are considered.”が頻度3で、不連続単語列“brane 〜 considered.”が頻度2で出現している。したがってこれらは、この英文を含む文書のカテゴリでは使用頻度の高い定型のパターンと考えられる。抽出実施部46はこのような定型のパターンを、文書データから抽出する。
In these data, the continuous word string “are considered.” Appears at
上述のように連続するアイテム列(単語、品詞、属性等)の集合から、あるしきい値以上の頻度で頻出するアイテム列を抽出する手法は系列パターンマイニングと呼ばれる。例えば「ACD」、「ABC」、「CBA」、「AAB」というアイテム列の集合があるとする。系列パターンマイニングのアルゴリズムによると、このアイテム列集合から「A*B」というパターンの頻度は2、「A*C」というパターンの頻度は2、という情報を得ることができる。ここではパターンに含まれるアイテム列は連続、不連続のどちらでも設定でき、上記の例では不連続のパターンも含んでいる。系列パターンマイニングについては多くの研究がなされており、本実施の形態においてはこの系列パターンマイニングの手法のいずれかを導入できる。これにより、現実的な処理時間で頻出パターンを抽出できる。 As described above, a technique for extracting an item string that frequently appears at a frequency equal to or higher than a certain threshold value from a set of continuous item strings (words, parts of speech, attributes, etc.) is called sequence pattern mining. For example, it is assumed that there is a set of item strings “ACD”, “ABC”, “CBA”, and “AAB”. According to the sequence pattern mining algorithm, information that the frequency of the pattern “A * B” is 2 and the frequency of the pattern “A * C” is 2 can be obtained from the item string set. Here, the item string included in the pattern can be set to either continuous or discontinuous. In the above example, the discontinuous pattern is also included. Many studies have been made on sequence pattern mining, and in this embodiment, any of these sequence pattern mining techniques can be introduced. Thereby, a frequent pattern can be extracted in a realistic processing time.
例えば系列パターンマイニングの手法として、n-gram PrefixSpanのアルゴリズムを導入してもよい(工藤拓ら、言語情報を利用したテキストマイニング、言語処理学会全国大会NLP−2002、2002)。この手法は、チャンキングや係り受け解析といった自然言語処理ツールを使用し、半構造化したデータから意味を反映したパターンを抽出する。 For example, an n-gram PrefixSpan algorithm may be introduced as a method of sequence pattern mining (Taku Kudo et al., Text Mining Using Language Information, National Association of Language Processing Associations NLP-2002, 2002). This method uses natural language processing tools such as chunking and dependency analysis to extract patterns reflecting meaning from semi-structured data.
次に上記の構成による本実施の形態の動作について説明する。図3はパターン文書記憶部70に記憶された文書データからパターンとそれに係る情報を抽出してパターン情報ファイルを生成し、パターン情報記憶部80に記憶させる手順を示している。まずユーザからの入力装置20に対する入力指示により、テキスト化部42は文書記憶部70に記憶された複数の文書を読み出し、記憶されたフォーマットからテキストデータへ変換する(S10)。文書記憶部70に複数のカテゴリの文書集合が記憶されている場合は、ユーザが指定した文書集合に対して変換処理を行う。次に変換部44は、テキストデータを1行1文の1つのテキストファイルへ変換する(S12)。生成されたテキストファイルは、パターン情報記憶部80に記憶させる。
Next, the operation of the present embodiment having the above configuration will be described. FIG. 3 shows a procedure for extracting a pattern and related information from the document data stored in the pattern
次に抽出実施部46は変換されたテキストファイルから、n-gram PrefixSpanなどの系列パターンマイニングのアルゴリズムによって頻出パターンを抽出する(S14)。ここではあるパターンを「頻出パターン」とする出現頻度のしきい値を、2度、5度、などあらかじめプログラム内で設定しておく。そしてそれ以上の頻度で抽出されたパターンを「頻出パターン」として記憶する。同様に、パターンとして抽出される単語列の長さも2単語以上、4単語以上などとプログラム内で設定する。あるいは長い単語列のパターンは頻度のしきい値を低くするなど、パターンとして抽出する単語列の長さと頻度のしきい値とを組み合わせて変化させてもよい。このような設定もプログラム内で行うことができる。
Next, the
抽出実施部46が抽出した頻出パターンは、パターン情報書き込み部48によってパターン情報記憶部80に記憶される(S16)。このとき、頻出パターンと、抽出を行った文書集合における頻度、および、当該頻出パターンを含む文章の識別情報などを対応付けて、パターン情報記憶部80に書き込む。識別情報は、例えばS12で生成しパターン情報記憶部80に保存したテキストファイル内の該当文章の格納領域を示すポインタなどでよい。パターン情報記憶部80には、一度のパターン抽出において抽出対象となった文書集合ごとにパターン情報ファイルを記憶させてよい。以上の手順により、ユーザが参照したい文書集合に含まれる頻出パターンと、それを含む文章などの情報を格納したデータベースが完成する。過去に生成されパターン情報記憶部80に保存されたパターン情報ファイルは、同じ文書集合の用例文検索においてはそのまま利用することができる。
The frequent pattern extracted by the
図4は文書作成時などにユーザが用例文検索を行う際の処理手順を示している。まずユーザは入力装置20により検索したいキーワードを入力する(S20)。この際、パターン情報記憶部80に複数のパターン情報ファイルが存在する場合は、あらかじめどのパターン情報ファイルから検索を行うかを指定する。すると検索実施部62は、指定されたパターン情報ファイルをパターン情報記憶部80から特定し、当該キーワードを含む頻出パターンを検出する(S22)。次にパターン出力部64は、検出されたパターンとその頻度とからなるデータを出力装置30に出力する(S24)。
FIG. 4 shows a processing procedure when the user performs an example sentence search when creating a document. First, the user inputs a keyword to be searched using the input device 20 (S20). In this case, if there are a plurality of pattern information file in the pattern
ユーザは必要に応じて出力されたパターンの中から、用例文を確認したいパターンを入力装置20によって選択する(S26)。すると用例文出力部66は、パターン情報記憶部80のパターン情報ファイルを参照して、選択されたパターンに対応付けられた識別情報に基づきパターン情報記憶部80のテキストファイルから当該パターンを含む文章を全て読み出し、用例文として出力装置30に出力する(S26)。これによりユーザは、参照したいカテゴリに属する文書において頻出するパターンを知ることができるとともに、パターンごとに用例文を確認することができる。
The user selects a pattern for which an example sentence is to be confirmed from the patterns output as necessary by the input device 20 (S26). Then, the example
図5は本実施の形態において出力装置30に相当する表示装置に表示される用例文検索画面の一例を示している。用例文検索画面100は、パターン情報記憶部80に記憶された複数のパターン情報ファイルから選択を行うファイル選択コマンド102、検索したいキーワードを入力するキーワード入力欄104、検索実行を指示入力する「検索」実行ボタン105、ファイル選択コマンド102によって選択されたパターン情報ファイルの名前を表示するデータベース表示欄106、検索結果のパターンとその頻度を表示するパターン/頻度表示欄108、および選択されたパターンを含む用例文を表示する用例文表示欄116を含む。
FIG. 5 shows an example of an example sentence search screen displayed on a display device corresponding to the
ユーザがファイル選択コマンド102を入力装置20に含まれるマウスカーソルなどにより選択すると、プルダウンメニューによってパターン情報記憶部80に記憶されている複数のパターン情報ファイルの名前が一覧表示される。ユーザがそのうちのいずれかを選択すると、データベース表示欄106にそのパターン情報ファイルの名前が表示され、検索実施部62の検索対象となる。図5の例では、「論文」という名前のパターン情報ファイルを選択している。
When the user selects the
続いて図4のS20においてユーザがキーワードをキーワード入力欄104に入力する。図5の例では「consider」という単語が入力されている。そしてユーザが「検索」実行ボタン105により確定入力を行うと、検索実施部62は、パターン情報記憶部80に記憶された「論文」という名前のパターン情報ファイルから「consider」を含み頻出パターンとして記憶された全てのパターンを検出する。そしてパターン出力部64は、パターン/頻度表示欄108のパターン表示欄110に検出したパターンを、頻度表示欄112にそのパターンの頻度を表示する。図5の例ではパターン表示欄110に「we consider the」、「considering the」など、「consider」を含むパターンが頻度順に表示されている。
Subsequently, in S <b> 20 of FIG. 4, the user inputs a keyword into the
次にユーザは図4のS26において、パターン/頻度表示欄108に表示されたパターンからマウスカーソルなどによってあるパターンを選択入力する。図5の例では「is considered」なるパターンが枠114で囲まれ、選択されていることを示している。すると用例文出力部66は、パターン情報記憶部80に記憶された文書のテキストファイルから、選択されたパターンを含む文章を文単位で全て読み出し、用例文表示欄116に表示する。この際、選択されたパターンが文章中のどこに出現しているかがわかるように枠118でパターンを囲ったり、太字で表示したりしてもよい。
Next, in S26 of FIG. 4, the user selects and inputs a certain pattern from the patterns displayed in the pattern /
ある英文アブストラクトコーパスと、ある国際会議論文集の2つの文書集合を対象に、本実施の形態を実際に適用した。英文アブストラクトコーパスは総英文数65889、データ容量が8.0メガバイト、国際会議論文集は総英文数45115、データ容量が4.6メガバイトである。これらの文書集合のどちらにおいても、図3に示したパターン情報の生成処理を数十秒で完了して図4に示した検索処理を行うことができ、十分実用性が保証されていることが確認された。 The present embodiment was actually applied to two document sets of a certain English abstract corpus and a certain international conference paper collection. The English abstract corpus has a total number of English texts of 65889 and a data capacity of 8.0 megabytes. The international conference papers have a total of 45115 texts and a data capacity of 4.6 megabytes. In both of these document sets, the pattern information generation process shown in FIG. 3 can be completed in several tens of seconds and the search process shown in FIG. 4 can be performed, so that practicality is sufficiently guaranteed. confirmed.
また、ある論文アブストラクトを検索対象として本実施の形態を適用した場合の検索結果例を表1および表2に示す。ここでのパターン抽出条件は、抽出する頻度のしきい値を5、抽出するパターンは最小2単語、最大6単語の連続した単語列とした。表1は「consider」を検索キーワードとした場合、表2は「study」を検索キーワードとした場合にパターン/頻度表示欄108に表示されるパターンおよび頻度を表している。ここでは文書中、「considered」といった過去形などの変化形は全て原形に正規化する処理をプログラム中で行っている。正規化するかどうかは、検索対象となる文書の量などによって例えば自動的に定めたり、ユーザが指定できるようにする。
Tables 1 and 2 show examples of search results when the present embodiment is applied to a certain paper abstract as a search target. Here, the pattern extraction condition is that the extraction frequency threshold is 5, and the extracted pattern is a continuous word string of a minimum of 2 words and a maximum of 6 words. Table 1 shows patterns and frequencies displayed in the pattern /
表1および表2から、この論文アブストラクトの文書集合においては、「consider」および「study」はともに受動表現が多用されることがわかる。また両者はほぼ同じ意味で用いられる場合があるが、ユーザは表1、表2から選択したパターンを含む用例文を参照することにより、どちらの表現を用いるかを選択することができる。 From Table 1 and Table 2, it can be seen that passive expressions are frequently used for both “consider” and “study” in the document set of this paper abstract. In some cases, the two terms are used with almost the same meaning, but the user can select which expression to use by referring to the example sentence including the pattern selected from Table 1 or Table 2.
以上述べた本実施の形態によれば、ユーザが参考にしたいカテゴリの文書集合からパターン情報を生成し、そのパターン情報のみに絞ってキーワード検索を行うことができるため、利用率の少ないパターンを排除しやすく、その集合において定型とされる頻出パターンを取得しやすい。したがって一般的には同じ意味を有する熟語だが、あるカテゴリでは一方はほとんど使われないなど、カテゴリによる用法、文法の偏り、カテゴリ独特の言い回し、定型句、それらが使用される文脈などの知識を効率よく取得し、自分の作成文書に生かすことができる。 According to this embodiment described above, pattern information can be generated from a document set of a category that the user wants to refer to, and keyword search can be performed only on the pattern information, thereby eliminating patterns with low utilization. It is easy to obtain, and it is easy to acquire a frequent pattern that is a fixed pattern in the set. Therefore, idioms that generally have the same meaning, but one is rarely used in some categories, such as category usage, grammatical bias, category-specific phrases, boilerplates, and contexts in which they are used efficiently. You can get it well and use it in your documents.
カテゴリは、例えば論文、電子メールなど比較的大きな分類や、論文を細分化した物理論文、工学論文などの分類、物理論文をさらに細分化した、ある学会の論文集や直近1年間で発表されたある論文誌の論文など、ユーザが容易に指定でき、パターン情報ファイルも容易に生成できる。したがって上述したカテゴリ特有の言い回しなどのほか、局所的、一時的な流行、傾向の把握や、内容的な検索など、ユーザの細かいニーズにも応じることのできる、臨機応変な検索機能が実現できる。 Categories, for example, papers, e-mails, relatively large classifications, physical papers that subdivided papers, classifications of engineering papers, etc. A paper such as a paper in a journal can be easily specified by a user, and a pattern information file can be easily generated. Therefore, in addition to the above-mentioned category-specific phrases, it is possible to realize an ad hoc search function that can meet the detailed needs of the user, such as grasping local and temporary trends, trends, and content searches.
またそのカテゴリにおけるパターンの使用状況を頻度などから概観しやすく、キーワードの語感や使用傾向を把握しやすい。さらに選択されたパターンを含む用例文のみを文単位で表示するため、必要最低限の用例文のみを効率的に取得できる。これによりユーザは、頻出パターンのより詳細な用例を調べることができ、それを模倣することにより正確な文章作成を効率的に行うことができる。 In addition, it is easy to overview the usage status of patterns in the category from the frequency, etc., and it is easy to grasp the word feeling and usage tendency of keywords. Furthermore, since only the example sentences including the selected pattern are displayed in sentence units, only the minimum necessary example sentence can be efficiently acquired. As a result, the user can examine a more detailed example of the frequent pattern, and by imitating it, it is possible to efficiently create an accurate sentence.
また系列パターンマイニングのアルゴリズムを利用してパターンの抽出を行うため、あいまいなキーワードに対しても検索を行ってパターンのリストを表示でき、所望のパターンを特定することが可能である。特定に際しては、各パターンの用例文を参照することができるため、最適なパターンを選択しやすい。 In addition, since a pattern is extracted by using a sequence pattern mining algorithm, it is possible to search for ambiguous keywords and display a list of patterns, and to specify a desired pattern. In specifying, since the example sentences of each pattern can be referred to, it is easy to select an optimal pattern.
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。 The present invention has been described based on the embodiments. This embodiment is an exemplification, and it will be understood by those skilled in the art that various modifications can be made to combinations of the respective constituent elements and processing processes, and such modifications are also within the scope of the present invention. is there.
本実施の形態では入力したキーワードを含むパターンをパターン情報ファイルから検出したが、キーワードに基づきハードディスクなどに記憶した辞書のデータベースを検索し、その結果得られた語句を新たなキーワードとしてパターンを検索してもよい。これにより例えば日本語のキーワードを入力し、その日本語に対応する英語のパターンとその用例文を確認することができる。辞書としては和英、和仏などの言語変換辞書のほか、類義語辞書を導入することができる。これによりあいまいなキーワードに対して類義語拡張を行うことができる。 In this embodiment, a pattern including an input keyword is detected from the pattern information file. However, a dictionary database stored in a hard disk or the like is searched based on the keyword, and a pattern is searched using the obtained phrase as a new keyword. May be. Thereby, for example, a Japanese keyword can be input, and an English pattern and an example sentence corresponding to the Japanese keyword can be confirmed. In addition to language conversion dictionaries such as Japanese-English and Japanese-French, synonym dictionaries can be introduced. This allows synonym expansion for ambiguous keywords.
本実施の形態では用例文検索に特化した装置の説明を行った。本発明の実施の態様はこれに限られず、同様の機能を提供するアプリケーションソフトウェアとして、パーソナルコンピュータなどにおいて他のアプリケーションソフトウェアと同様に実行するようにしてもよい。また文書作成アプリケーションや電子メールアプリケーションなど文章入力を行うアプリケーションに同様の機能を組み込むプラグインとしてもよく、ユーザがパターンや用例文を選択することにより、作成中の文書に自動的に当該パターンや用例文が書き込まれるようにしてもよい。 In the present embodiment, an apparatus specialized for example sentence search has been described. The embodiment of the present invention is not limited to this, and may be executed in the same manner as other application software in a personal computer or the like as application software that provides similar functions. Also, it may be a plug-in that incorporates the same function into an application that inputs text, such as a document creation application or an e-mail application, and the pattern or usage is automatically added to the document being created by the user selecting a pattern or example sentence. An example sentence may be written.
またパターン抽出部40の機能と検索部60の機能は同一の装置に備えていなくてもよい。例えばパターン抽出部40によるパターン情報ファイルの生成をあらかじめ別の装置で行っておき、それを記録した記録媒体を検索部60の機能を有する装置において読み取り、検索を行ってもよいし、ネットワークを介してパターン情報ファイルをダウンロードして検索に用いてもよい。
Further, the function of the
10 用例文検索装置、 15 プロセッサ、 20 入力装置、 30 出力装置、 40 パターン抽出部、 42 テキスト化部、 44 変換部、 46 抽出実施部、 48 パターン情報書き込み部、 60 検索部、 62 検索実施部、 64 パターン出力部、 66 用例文出力部、 70 文書記憶部、 80 パターン情報記憶部。
10 example sentence search device, 15 processor, 20 input device, 30 output device, 40 pattern extraction unit, 42 text conversion unit, 44 conversion unit, 46 extraction execution unit, 48 pattern information writing unit, 60 search unit, 62
Claims (9)
前記パターン抽出部が抽出した前記単語列パターンと、前記文書集合に属する文書に含まれ、当該単語列パターンを含む文章とを対応付けたパターン情報を記憶するパターン情報記憶部と、
検索キーワード入力を受け付け、前記検索キーワードおよび前記検索キーワードと関連性を有する語句のいずれかを含む単語列パターンを前記パターン情報記憶部が記憶する前記パターン情報から検出する検索実施部と、
前記検索実施部が検出した単語列パターンおよびそれに対応付けられた前記文章の少なくとも一部を出力するパターン情報出力部と、
を備えることを特徴とする用例文検索装置。 A pattern extraction unit that extracts a word string pattern from a document set designated by a user according to a predetermined rule;
A pattern information storage unit that stores pattern information in which the word string pattern extracted by the pattern extraction unit is associated with a sentence that is included in the document belonging to the document set and includes the word string pattern;
A search execution unit that receives a search keyword input and detects from the pattern information stored in the pattern information storage unit a word string pattern including any of the search keyword and a phrase related to the search keyword;
A pattern information output unit for outputting at least a part of the word string pattern detected by the search execution unit and the sentence associated therewith;
An example sentence search device comprising:
検索キーワード入力を受け付け、前記検索キーワードおよび前記検索キーワードと関連性を有する語句のいずれかを含む単語列パターンを前記パターン情報記憶部が記憶する前記パターン情報から検出する検索実施部と、
前記検索実施部が検出した単語列パターンおよびそれに対応付けられた前記文章の少なくとも一部を出力するパターン情報出力部と、
を備えることを特徴とする用例文検索装置。 A pattern information storage unit for storing pattern information in which a word string pattern extracted from a document set according to a predetermined rule is associated with a document that belongs to the document set and includes the word string pattern;
A search execution unit that receives a search keyword input and detects from the pattern information stored in the pattern information storage unit a word string pattern including any of the search keyword and a phrase related to the search keyword;
A pattern information output unit for outputting at least a part of the word string pattern detected by the search execution unit and the sentence associated therewith;
An example sentence search device comprising:
前記検索実施部は、前記複数のパターン情報からの選択入力を受け付け、前記キーワードを含む単語列パターンを、選択されたパターン情報から検出することを特徴とする請求項3に記載の用例文検索装置。 The pattern information storage unit stores a plurality of the pattern information corresponding to a plurality of the document sets,
4. The example sentence search device according to claim 3, wherein the search execution unit receives a selection input from the plurality of pattern information, and detects a word string pattern including the keyword from the selected pattern information. .
前記検索実施部が検出した単語列パターンを出力するパターン出力部と、
前記パターン出力部が出力した前記単語列パターンからの選択入力を受け付け、選択された前記単語列パターンに対応付けられた前記文章を出力する文章出力部と、
を備えることを特徴とする請求項1または3に記載の用例文検索装置。 The pattern information output unit
A pattern output unit for outputting the word string pattern detected by the search execution unit;
A sentence output unit that accepts a selection input from the word string pattern output by the pattern output unit, and outputs the sentence associated with the selected word string pattern;
The example sentence search device according to claim 1, further comprising:
前記パターン出力部は、前記検索実施部が検出した単語列パターンごとに前記出現頻度をさらに出力することを特徴とする請求項5に記載の用例文検索装置。 In the pattern information stored in the pattern information storage unit, the word string pattern is further associated with the appearance frequency of the word string pattern in the document set,
The example pattern search apparatus according to claim 5, wherein the pattern output unit further outputs the appearance frequency for each word string pattern detected by the search execution unit.
あらかじめ記憶された、ユーザ指定の文書集合から所定の規則に従い抽出された単語列パターンと、前記文書集合に属する文書に含まれ、当該単語列パターンを含む文章とを対応付けたパターン情報を参照し、前記検索キーワードおよび前記検索キーワードと関連性を有する語句のいずれかを含む単語列パターンを検出するステップと、
検出された前記単語列パターンのうち少なくとも一部の単語列パターンに対応付けられた前記文章を出力するステップと、
を含むことを特徴とする用例文検索方法。 Receiving search keyword input,
Refer to pattern information that associates a word string pattern that is stored in advance and extracted from a user-specified document set according to a predetermined rule with a sentence that is included in the document belonging to the document set and that includes the word string pattern. Detecting a word string pattern including any of the search keyword and a phrase related to the search keyword;
Outputting the sentence associated with at least some of the detected word string patterns;
A method for searching example sentences, comprising:
検索キーワード入力を受け付け、前記検索キーワードおよび前記検索キーワードと関連性を有する語句のいずれかを含む単語列パターンを前記パターン情報から検出する機能と、
検出された前記単語列パターンおよびそれに対応付けられた前記文章の少なくとも一部を出力する機能と、
をコンピュータに実現させることを特徴とするコンピュータプログラム。 A function of storing pattern information in which a word string pattern extracted from a user-specified document set according to a predetermined rule and a sentence included in the document set and including the word string pattern are associated with each other;
A function of accepting a search keyword input, and detecting a word string pattern including any of the search keyword and a phrase related to the search keyword from the pattern information;
A function of outputting at least a part of the detected word string pattern and the sentence associated therewith;
A computer program for causing a computer to realize the above.
A word string pattern extracted from a document set according to a predetermined rule, an appearance frequency of the word string pattern in the document set, and a sentence included in the document belonging to the document set and including the word string pattern are associated with each other A recording medium for recording.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006030103A JP2007213157A (en) | 2006-02-07 | 2006-02-07 | Example sentence retrieval device and example sentence retrieval method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006030103A JP2007213157A (en) | 2006-02-07 | 2006-02-07 | Example sentence retrieval device and example sentence retrieval method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007213157A true JP2007213157A (en) | 2007-08-23 |
Family
ID=38491556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006030103A Pending JP2007213157A (en) | 2006-02-07 | 2006-02-07 | Example sentence retrieval device and example sentence retrieval method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007213157A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010001455A1 (en) * | 2008-06-30 | 2010-01-07 | 富士通株式会社 | Retrieving device and method |
WO2012017782A1 (en) * | 2010-08-06 | 2012-02-09 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Method of character string generation, program and system |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08241319A (en) * | 1995-03-01 | 1996-09-17 | Oki Electric Ind Co Ltd | Machine translation system |
JP2001075962A (en) * | 1999-08-31 | 2001-03-23 | Sharp Corp | Electronic dictionary and recording medium recording electronic dictionary program |
-
2006
- 2006-02-07 JP JP2006030103A patent/JP2007213157A/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08241319A (en) * | 1995-03-01 | 1996-09-17 | Oki Electric Ind Co Ltd | Machine translation system |
JP2001075962A (en) * | 1999-08-31 | 2001-03-23 | Sharp Corp | Electronic dictionary and recording medium recording electronic dictionary program |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010001455A1 (en) * | 2008-06-30 | 2010-01-07 | 富士通株式会社 | Retrieving device and method |
WO2012017782A1 (en) * | 2010-08-06 | 2012-02-09 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Method of character string generation, program and system |
JP5337308B2 (en) * | 2010-08-06 | 2013-11-06 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Character string generation method, program and system |
US8954402B2 (en) | 2010-08-06 | 2015-02-10 | International Business Machines Corporation | Character string generation method, article of manufacture and system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8484238B2 (en) | Automatically generating regular expressions for relaxed matching of text patterns | |
JP2007257644A (en) | Program, method and device for acquiring translation word based on translation word candidate character string prediction | |
Bian et al. | Cross‐language information access to multilingual collections on the internet | |
CN111104801B (en) | Text word segmentation method, system, equipment and medium based on website domain name | |
JP2009217689A (en) | Information processor, information processing method, and program | |
Arnold et al. | Beyond lexical frequencies: using R for text analysis in the digital humanities | |
JP4143085B2 (en) | Synonym acquisition method and apparatus, program, and computer-readable recording medium | |
JP2007011973A (en) | Information retrieval device and information retrieval program | |
Fatima et al. | STEMUR: An automated word conflation algorithm for the Urdu language | |
JP2007213157A (en) | Example sentence retrieval device and example sentence retrieval method | |
Klang et al. | Linking, searching, and visualizing entities in wikipedia | |
JPWO2020157887A1 (en) | Sentence structure vectorization device, sentence structure vectorization method, and sentence structure vectorization program | |
JP5499546B2 (en) | Important word extraction method, apparatus, program, recording medium | |
JP3937741B2 (en) | Document standardization | |
JP2009110081A (en) | Document relevancy analyzing device, method, and program | |
JP2007200252A (en) | Abbreviation generation/validity evaluation method, synonym database generation/update method, abbreviation generation/validity evaluation device, synonym database generation/update device, program, and recording medium | |
JP6871642B2 (en) | Dictionary construction device, map creation device, search device, dictionary construction method, map creation method, search method, and program | |
JP4148247B2 (en) | Vocabulary acquisition method and apparatus, program, and computer-readable recording medium | |
JP4953440B2 (en) | Morphological analysis device, morphological analysis method, morphological analysis program, and recording medium storing computer program | |
Borin et al. | Language technology for digital linguistics: Turning the linguistic survey of India into a rich source of linguistic information | |
JP4155970B2 (en) | Information processing apparatus, synonym database generation method, and synonym database generation program | |
JP2004334382A (en) | Structured document summarizing apparatus, program, and recording medium | |
Dave et al. | A Systematic Review of Stemmers of Indian and Non-Indian Vernacular Languages | |
Lovinger et al. | Scrubbing the web for association rules: An application in predictive text | |
Aksan et al. | The Turkish National Corpus (TNC): comparing the architectures of v1 and v2 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110222 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110726 |