JP2010009215A - テキスト抽出装置、そのシステム、その方法、および、そのプログラム - Google Patents
テキスト抽出装置、そのシステム、その方法、および、そのプログラム Download PDFInfo
- Publication number
- JP2010009215A JP2010009215A JP2008166084A JP2008166084A JP2010009215A JP 2010009215 A JP2010009215 A JP 2010009215A JP 2008166084 A JP2008166084 A JP 2008166084A JP 2008166084 A JP2008166084 A JP 2008166084A JP 2010009215 A JP2010009215 A JP 2010009215A
- Authority
- JP
- Japan
- Prior art keywords
- text
- information
- extraction
- word
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 151
- 238000000034 method Methods 0.000 title description 6
- 230000014509 gene expression Effects 0.000 claims abstract description 51
- 239000002245 particle Substances 0.000 claims abstract description 21
- 239000000284 extract Substances 0.000 claims abstract description 17
- 230000005540 biological transmission Effects 0.000 claims description 21
- 230000002940 repellent Effects 0.000 claims description 10
- 239000005871 repellent Substances 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 230000007704 transition Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 206010063659 Aversion Diseases 0.000 description 10
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000002560 therapeutic procedure Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000005401 electroluminescence Methods 0.000 description 2
- 230000035876 healing Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 239000004575 stone Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】テキスト抽出システムのサーバ装置は、ユーザにより検索入力ボックス351に設定入力された述語の入力クエリを取得すると、正規表現ルール情報に基づいて、必要語品詞情報の品詞に対応する単語またはこの単語を含む文と、接続表現情報で表される接続助詞と、入力クエリの述語と、がこの順序で含まれる抽出テキスト356Aを抽出する。このため、上述の構造を有する抽出テキスト356A中の接続助詞の前に位置し、必要語品詞情報の品詞に対応する単語などを、述語内容実現情報356Bとすることができる。したがって、この述語内容実現情報356Bを特定する単語や文の品詞を特定することで、施設以外の多くの単語や文で表される述語内容実現情報356Bを抽出できる。
【選択図】図2
Description
この特許文献1に記載のものは、連想配列データベースに記録された願望などをユーザのディスプレイに表示させる。そして、例えばユーザが「借りる」の用語を選択した場合、施設−願望状況表現オントロジーの「借りる」のレコードからの対応する対象情報をユーザのディスプレイに送信して、「お金」、「本」、「住居」の情報をディスプレイに表示させる。この後、ユーザにより「本」が選択されると、連想配列データベースから「図書館」、「貸本屋」を検索して、xx図書館などの施設の検索結果を表示させる構成が採られている。
しかしながら、特許文献1に記載のような構成では、施設を検索する構成のため、施設以外の述語内容実現情報を検索できない。また、記憶装置に記憶された特定の施設しか読み出すことができないため、ユーザが望む施設を検索できないおそれがある。
この発明によれば、述語情報を取得すると、必要語品詞情報および接続表現情報を有する抽出条件情報を取得して、必要語品詞情報の品詞に対応する単語またはこの単語を含む文、接続表現情報の接続助詞、述語情報の述語がこの順序で含まれる抽出テキストを抽出する。このため、上述の構成を有する抽出テキストにおいて、必要語品詞情報に対応する単語または文を述語内容実現情報とすることができる。したがって、この述語内容実現情報を特定する単語や文の品詞を特定することで、施設以外の多くの単語や文で表される述語内容実現情報を抽出できる。
ここで、忌避語として特定される代名詞としては、「何」、「誰」、「私」などが例示でき、特殊文字としては、「○」、「×」、「@」、「、」、「。」、「;」などが例示できる。そして、忌避語として代名詞が含まれる単語や文は、代名詞自体や代名詞を含む文が述語内容実現情報となるため、ユーザが知りたい特定の物や動作を述語内容実現情報として抽出できないおそれがある。また、忌避語として特殊文字が含まれる単語や文は、述語と意味の上で関係ない単語や文が述語内容実現情報となるため、ユーザが知りたい述語内容実現情報を抽出できないおそれがある。
このため、必要語品詞情報に対応する単語のうち忌避語以外の単語を有する文を述語内容実現情報として抽出することで、ユーザが知りたい述語内容実現情報のみを適切に抽出できる。
この発明によれば、述語情報の述語を含む候補テキストを取得して、この候補テキストから述語情報および抽出条件情報に基づいて抽出テキストを抽出するので、抽出処理手段における抽出検討対象のテキスト数を減らすことができ、抽出処理の効率化を図ることができる。
この発明によれば、形態素ごとに抽出条件情報の条件と適合するか否かを順次判断することで、抽出テキストを容易に抽出できる。
この発明によれば、抽出条件情報に基づき生成されたオートマトンを利用することで、抽出テキストを容易に抽出できる。
この発明によれば、多くの文字列の集合を簡単な文字列で表現可能な正規表現で表された述語情報および抽出条件情報に基づきオートマトンを生成するので、簡単な構成の述語情報および抽出条件情報に基づいて多数の抽出テキストを抽出できる。
ここで、出力手段は、テキストを表示させる表示手段であってもよいし、テキストを音声で出力させる音声出力装置であってもよい。
この発明によれば、抽出処理をするサーバ装置と、述語情報を生成する端末装置と、をネットワークを介して接続しているため、端末装置と比べて処理量が多い抽出処理をするテキスト抽出装置をシステム管理者に管理させることで、少数のテキスト抽出装置の処理能力を高めるだけで多数のユーザに対する抽出処理の高速化を容易に図ることができる。さらに、出力手段における抽出テキストの出力により、述語内容実現情報をユーザに認識させることができる。
この発明によれば、表示手段に抽出テキストを含むウェブページを表示させることで、述語内容実現情報に関するより多くの情報をユーザに認識させることができる。
この発明によれば、演算手段、すなわちCPU(Central Processing Unit)やマイクロコンピュータなどの素子、あるいは複数の電子部品が搭載された回路基板などを取り付けるだけの簡単な構成で、述語内容実現情報を適切に抽出でき、利用拡大を容易に図れる。
本発明のテキスト抽出プログラムは、演算手段を上述のテキスト抽出装置として機能させることを特徴とする。
これらの発明によれば、テキスト抽出プログラムにより、上述したテキスト抽出装置で実施される処理を実施するため、プログラムをインストールするだけの簡単な構成で、上述したテキスト抽出装置で得られる効果と同様の効果を得ることが可能となり、利用拡大をより容易に図れる。
本実施形態では、述語が設定入力された際に、この述語の述語内容実現情報を含む抽出テキストを抽出するテキスト抽出システムを例示して説明する。
まず、本発明の一実施形態に係るテキスト抽出システムの構成について説明する。
図1は、テキスト抽出システムの概略構成を示すブロック図である。図2は、抽出処理画像を示す模式図である。図3は、品詞テーブルDBの概略構成を示す模式図である。図4は、正規表現ルールDBの概略構成を示す模式図である。図5は、検索クエリを示す図である。図6は、有限オートマトン生成時の状態遷移図である。
図1に示すように、テキスト抽出システム1は、ネットワーク2と、端末装置3と、サーバ装置4と、を備えている。
端末操作手段32は、例えばキーボードやマウスなどで、入力操作される図示しない各種操作ボタンや操作つまみなどを有している。この操作ボタンや操作つまみの入力操作の内容としては、後述する入力クエリの設定、見たいウェブページのURLなどが例示できる。なお、端末操作手段32としては、操作ボタンや操作つまみなどの入力操作に限らず、例えば表示手段33に設けられたタッチパネルによる入力操作や、音声による入力操作など、各種設定事項を設定入力可能ないずれの構成を適用できる。
表示手段33は、端末制御部34の制御により各種画像を表示させる。この表示手段33としては、例えば液晶表示パネルや有機EL(Electro Luminescence)パネル、PDP(Plasma Display Panel)、CRT(Cathode-Ray Tube)、FED(Field Emission Display)、電気泳動ディスプレイパネルなどが例示できる。
入力クエリ生成手段341は、表示制御手段342の制御に基づいて、図2に示すような抽出処理画像350が表示されている状態において、端末操作手段32の操作に基づき所定の述語が検索入力ボックス351に設定入力され、かつ、検索ボタン352がカーソル353により選択されたことを認識すると、この述語を表す述語情報としての入力クエリを生成して、端末送受信手段31を介してサーバ装置4へ送信する。ここで、入力クエリとして表される述語としては、「癒される」、「楽しい」、「面白い」などが例示できる。
表示制御手段342は、端末操作手段32の操作に基づき抽出処理画像350の表示要求が設定入力されたことを認識すると、抽出処理画像350を表示手段33に表示させる。また、表示制御手段342は、サーバ装置4から入力クエリに基づく抽出結果情報を取得すると、この抽出結果情報を抽出処理画像350の結果表示ボックス354に表示させる。この抽出結果情報は、入力クエリの述語に対応する抽出テキスト356Aを含むウェブページのテキスト(以下、抽出含有ウェブテキストと称す)と、抽出含有ウェブテキスト356が含まれるウェブページのアドレス情報と、を備えている。そして、表示制御手段342は、この抽出結果情報に基づいて、抽出含有ウェブテキスト356と、この抽出含有ウェブテキスト356のウェブページにリンクするハイパーリンクが設定されたアドレス情報357と、を表示させる。
また、表示制御手段342は、端末操作手段32の操作に基づき所定のアドレス情報357が選択された場合、このアドレス情報357のウェブページの取得要求をサーバ装置4へ送信する。そして、サーバ装置4から送信されたウェブページデータに基づいて、抽出含有ウェブテキスト356のウェブページを表示させる。
サーバ送受信手段41は、ネットワーク2を介して端末装置3に接続されるとともに、サーバ制御部46に接続されており、ネットワーク2を介して端末装置3から各種情報を受信してサーバ制御部46に出力し、サーバ制御部46から出力される各種情報をネットワーク2を介して端末装置3に送信する。
サーバ操作手段42は、端末操作手段32と同様の構成を有し、正規表現ルールDB45の更新時などに利用される。
ウェブDB43は、サーバ制御部46に接続されており、ウェブページを表示させるためのウェブページデータを適宜読み出し可能に記憶する。なお、このウェブDB43は、サーバ装置4外に設けられていてもよい。
品詞グループ情報443には、品詞IDが表す品詞のグループ、具体的には、形容詞、形容動詞、感動詞、副詞、連体詞、接続詞、接頭辞、名詞、動詞、助詞、助動詞、特殊文字である旨の情報が記録されている。品詞情報444には、品詞グループ情報443の品詞グループの品詞よりも詳細に分類された品詞、具体的には、名形、名サ自、名サ他、接続助詞などである旨の情報が記録されている。
正規表現ルール情報453は、正規表現を用いて表され、必要語品詞情報454と、忌避語情報455と、接続表現情報456と、マッチ情報457と、を備えている。
必要語品詞情報454には、述語内容表現情報に含まれる所定の単語の品詞を特定する情報が記録され、具体的には、品詞IDが記録されている。なお、必要語品詞情報454に品詞IDではなく、「名詞」などの品詞を特手する文字を記録してもよい。
忌避語情報455は、「^」の演算記号で始まるとともに、「&」の演算記号により必要語品詞情報454の前端に連結されている。この忌避語情報455には、所定の代名詞および特殊文字のうち少なくとも一方を忌避語として特定する情報が記録され、具体的な特殊文字である「:(コロン)」、「−(ハイフン)」あるいは代名詞である「なに」、「だれ」などが記録されている。
接続表現情報456は、マッチ情報457を介して必要語品詞情報454の後端に連結されている。この接続表現情報456には、所定の接続助詞を特定する情報が記録される。具体的には、接続助詞の品詞IDである「82」と、具体的な文字である「と」、「で」、「ば」などと、が記録され、これにより接続助詞の「と」、「で」、「ば」を特定する旨が表されている。
マッチ情報457は、「+」の演算記号により必要語品詞情報454の後端に連結されている。このマッチ情報457には、最小マッチ演算子である「?」または最大マッチ演算子である「!」が記録されたり、最小マッチ演算子および最大マッチ演算子の両方が記録されなかったりする。
以下の検索クエリ500のように最小マッチ演算子が設定されるのは、「検索」以外の名詞([35−57]は、名詞の品詞IDを表す)と、任意の品詞の形態素列([1−136]は、任意の品詞を表す)が最短となるテキストと、「検索?」の文字と、がこの順序で含まれるテキストを抽出する場合である。
入力クエリ取得手段462は、端末装置3から送信される入力クエリをサーバ送受信手段41を介して受信して、検索クエリ生成手段463へ出力する。
検索クエリ生成手段463は、図5に示すような検索クエリ500を生成する。具体的には、検索クエリ生成手段463は、入力クエリを取得すると、正規表現ルールDB45から正規表現ルール情報453を取得する。そして、正規表現ルール情報453の接続表現情報456の後端に入力クエリで表される述語501を連結した検索クエリ500を生成する。また、検索クエリ生成手段463は、正規表現ルールDB45の全ての正規表現ルール情報453を用いた検索クエリ500を生成して、テキスト抽出部465へ出力する。
ここで、図5に示す検索クエリ500は、「:」、「方」、「−」、「なに」、「何」、「だれ」、「誰」、「私」、「僕」、「俺」以外の名詞([37−39]は、名詞の名形、名サ自、名サ他の品詞IDを表す)を含む形態素列が最長となる単語または文と、接続助詞の「と」の文字と、「癒される」の文字と、がこの順序で含まれる抽出テキスト356Aを抽出する際に利用される。
なお、全ての正規表現ルール情報453に対応する検索クエリ500を生成せずに、1個の正規表現ルール情報453に対応する検索クエリ500のみを生成してもよい。
形態素解析手段465Aは、候補テキスト取得手段464から候補テキストを取得する。そして、品詞テーブルDB44を参照して、候補テキストを形態素に分解するとともに、この形態素に品詞IDを関連付けて、オートマトン生成手段465Bおよび抽出処理手段465Cへ出力する。
そして、オートマトン生成手段465Bは、検索クエリ生成手段463で生成された全ての検索クエリ500に基づく有限オートマトンを生成して、抽出処理手段465Cへ出力する。
抽出結果送信手段465Dは、候補テキスト取得手段464から候補テキストおよびウェブページデータのアドレスを取得するとともに、抽出処理手段465Cから抽出テキスト356Aの情報を取得する。さらに、これらに基づいて、抽出テキスト356Aを含むウェブページデータのアドレスを認識して、抽出含有ウェブテキスト356と、この抽出含有ウェブテキスト356に対応するアドレス情報と、を有する抽出結果情報を生成する。そして、抽出結果送信手段465Dは、抽出結果情報を端末装置3へ送信する。
次に、テキスト抽出システム1の動作について説明する。図7は、テキスト抽出システムの動作を示すフローチャートである。
サーバ装置4は、入力クエリを受信すると(ステップS3)、この入力クエリおよび正規表現ルール情報453に基づき検索クエリ500を生成するとともに(ステップS4)、ウェブDB43から入力クエリの述語501を含む候補テキストを取得する(ステップS5)。例えば、図5に示す検索クエリ500を生成するとともに、「癒される」の文字を含む候補テキストを取得する。
この後、サーバ装置4は、候補テキストを形態素に分解する形態素解析処理を実施して(ステップS6)、検索クエリ500に基づく有限オートマトンを生成する(ステップS7)。さらに、この生成した有限オートマトンと、形態素解析結果とに基づいて、抽出テキスト356Aを含む形態素列を抽出する(ステップS8)。例えば、図2に示すような「ペットを飼うと癒される」を抽出テキスト356Aとして含む形態素列を抽出する。そして、サーバ装置4は、この抽出テキスト356Aに関する抽出結果情報を生成して(ステップS9)、端末装置3へ送信する(ステップS10)。
端末装置3は、抽出結果情報を受信すると(ステップS11)、図2に示すように結果表示ボックス354に抽出結果を表示させて(ステップS12)、処理を終了する。
上述したように、上記実施形態では、以下のような作用効果を奏することができる。
このため、上述の構造を有する抽出テキスト356A中の接続助詞の前に位置し、必要語品詞情報454の品詞に対応する単語などを、述語内容実現情報356Bとすることができる。したがって、この述語内容実現情報356Bを特定する単語や文の品詞を特定することで、施設以外の多くの単語や文で表される述語内容実現情報356Bを抽出できる。
このため、忌避語が含まれることでユーザが知りたい内容とならない可能性が高い述語内容実現情報356Bを抽出することがなくなり、ユーザが知りたい述語内容実現情報356Bのみを適切に抽出できる。
このため、抽出処理手段465Cにおける抽出検討対象のテキスト数を減らすことができ、抽出処理の効率化を図ることができる。
このため、形態素ごとに検索クエリ500のルールと適合するか否かを順次判断することで、抽出テキスト356Aを容易に抽出できる。
このため、有限オートマトンを利用することで、抽出テキスト356Aを容易に抽出できる。
このため、端末装置3と比べて処理量が多い抽出処理をするサーバ装置4をシステム管理者に管理させることで、少数のサーバ装置4の処理能力を高めるだけで多数のユーザに対する抽出処理の高速化を容易に図ることができる。さらに、表示手段33における抽出テキスト356Aの表示により、述語内容実現情報356Bをユーザに認識させることができる。
このため、抽出テキスト356Aを含むウェブページを表示させることで、述語内容実現情報356Bに関するより多くの情報をユーザに認識させることができる。
なお、以上に説明した態様は、本発明の一態様を示したものであって、本発明は、前記した実施形態に限定されるものではなく、本発明の目的及び効果を達成できる範囲内での変形や改良が、本発明の内容に含まれるものであることはいうまでもない。
また、結果表示ボックス354に抽出テキスト356Aのみを表示させてもよいし、述語内容実現情報356Bのみを表示させてもよい。さらには、結果表示ボックス354にアドレス情報357を表示させなくてもよいし、ハイパーリンクが設定されていないアドレス情報357を表示させてもよい。
そして、抽出テキスト356Aを抽出する対象としては、文書作成アプリケーションソフトで作成した文書を対象としてもよい。
2…ネットワーク
3…端末装置
4…サーバ装置
33…出力手段としての表示手段
43…テキスト蓄積手段としてのウェブDB
46…テキスト抽出装置および演算手段としてのサーバ制御部
341…述語情報生成手段としての入力クエリ生成手段
342…出力制御手段としての表示制御手段
356A…抽出テキスト
453…抽出条件情報としての正規表現ルール情報
454…必要語品詞情報
455…忌避語情報
456…接続表現情報
462…述語情報取得手段としての入力クエリ取得手段
463…抽出条件情報取得手段としても機能する検索クエリ生成手段
464…候補テキスト取得手段
465A…形態素解析手段
465B…オートマトン生成手段
465C…抽出処理手段
465D…抽出テキスト送信手段としての抽出結果送信手段
Claims (11)
- 所定のテキストが蓄積されているテキスト蓄積手段から前記テキストを抽出テキストとして抽出するテキスト抽出装置であって、
所定の述語を特定する述語情報を取得する述語情報取得手段と、
所定の単語の品詞を特定する必要語品詞情報および所定の接続助詞を特定する接続表現情報を有する抽出条件情報を取得する抽出条件情報取得手段と、
前記必要語品詞情報の前記品詞に対応する前記単語またはこの単語を有する文、前記接続表現情報の前記接続助詞、および、前記述語情報の前記述語がこの順序で含まれるテキストを前記抽出テキストとして抽出する抽出処理手段と、
を具備したことを特徴とするテキスト抽出装置。 - 請求項1に記載のテキスト抽出装置において、
前記抽出条件情報は、所定の代名詞および特殊文字のうち少なくとも一方を忌避語として特定する忌避語情報を有し、
前記抽出処理手段は、前記必要語品詞情報の前記品詞に対応する単語のうち前記忌避語情報の前記忌避語以外の単語またはこの単語を有する文、前記接続助詞、および、前記述語がこの順序で含まれる前記抽出テキストを抽出する
ことを特徴とするテキスト抽出装置。 - 請求項1または請求項2に記載のテキスト抽出装置において、
前記述語情報の述語を含む前記テキストを候補テキストとして前記テキスト蓄積手段から取得する候補テキスト取得手段を具備し、
前記抽出処理手段は、前記述語情報および前記抽出条件情報に基づいて前記候補テキストから前記抽出テキストを抽出する
ことを特徴とするテキスト抽出装置。 - 請求項3に記載のテキスト抽出装置において、
前記候補テキストを形態素に分解する形態素解析手段を具備し、
前記抽出処理手段は、前記述語情報、前記抽出条件情報、および、前記形態素の分解結果に基づいて前記抽出テキストを抽出する
ことを特徴とするテキスト抽出装置。 - 請求項4に記載のテキスト抽出装置において、
前記述語情報および前記抽出条件情報に基づいてオートマトンを生成するオートマトン生成手段を具備し、
前記抽出処理手段は、前記形態素の分解結果および前記オートマトンに基づいて前記抽出テキストを抽出する
ことを特徴とするテキスト抽出装置。 - 請求項5に記載のテキスト抽出装置において、
前記オートマトンの生成に利用する前記述語情報および前記抽出条件情報の内容は、正規表現を用いて表されている
ことを特徴とするテキスト抽出装置。 - 所定のテキストが蓄積されているテキスト蓄積手段から前記テキストを抽出テキストとして抽出する請求項1ないし請求項6のいずれかに記載のテキスト抽出装置を有するサーバ装置と、
このサーバ装置にネットワークを介して各種情報を送受信可能に接続された端末装置と、
を具備し、
前記サーバ装置は、前記抽出テキストを前記端末装置へ送信する抽出テキスト送信手段を備え、
前記端末装置は、前記述語情報を生成して前記テキスト抽出装置へ送信する述語情報生成手段と、前記抽出テキストを前記サーバ装置から取得して前記抽出テキストを出力手段で出力させる出力制御手段と、を備えた
ことを特徴とするテキスト抽出システム。 - 請求項7に記載のテキスト抽出システムにおいて、
前記テキスト蓄積手段には、前記テキストを含むウェブページデータが蓄積されており、
前記出力手段は、表示手段であり、
前記抽出テキスト送信手段は、前記抽出テキストの前記テキスト蓄積手段におけるアドレスを前記端末装置へ送信し、
前記出力制御手段は、前記抽出テキストとともにこの抽出テキストに対応する前記アドレスを前記表示手段で表示させ、前記アドレスが設定入力されたことを認識すると前記ウェブページデータを前記テキスト蓄積手段から取得してウェブページを前記表示手段で表示させる
ことを特徴とするテキスト抽出システム。 - 演算手段にて、所定のテキストが蓄積されているテキスト蓄積手段から前記テキストを抽出テキストとして抽出するテキスト抽出方法であって、
前記演算手段は、
所定の述語を特定する述語情報を取得する述語情報取得工程と、
所定の単語の品詞を特定する必要語品詞情報および所定の接続助詞を特定する接続表現情報を有する抽出条件情報を取得する抽出条件情報取得工程と、
前記必要語品詞情報の前記品詞に対応する前記単語またはこの単語を有する文、前記接続表現情報の前記接続助詞、および、前記述語情報の前記述語がこの順序で含まれるテキストを前記抽出テキストとして抽出する抽出処理工程と、
を実施することを特徴とするテキスト抽出方法。 - 請求項9に記載のテキスト抽出方法を演算手段に実行させる
ことを特徴とするテキスト抽出プログラム。 - 演算手段を請求項1ないし請求項6のいずれかに記載のテキスト抽出装置として機能させる
ことを特徴とするテキスト抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008166084A JP5048598B2 (ja) | 2008-06-25 | 2008-06-25 | テキスト抽出装置、そのシステム、その方法、および、そのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008166084A JP5048598B2 (ja) | 2008-06-25 | 2008-06-25 | テキスト抽出装置、そのシステム、その方法、および、そのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010009215A true JP2010009215A (ja) | 2010-01-14 |
JP5048598B2 JP5048598B2 (ja) | 2012-10-17 |
Family
ID=41589655
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008166084A Active JP5048598B2 (ja) | 2008-06-25 | 2008-06-25 | テキスト抽出装置、そのシステム、その方法、および、そのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5048598B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464641A (zh) * | 2020-10-29 | 2021-03-09 | 平安科技(深圳)有限公司 | 基于bert的机器阅读理解方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0340068A (ja) * | 1989-07-06 | 1991-02-20 | Nec Corp | 文章検索方式 |
JPH1115846A (ja) * | 1997-06-26 | 1999-01-22 | Iwanami Shiyoten:Kk | 情報検索装置および記録媒体 |
JP2003263457A (ja) * | 2002-03-08 | 2003-09-19 | Fujitsu Ltd | 願望又は状況表現に基づく施設情報検索装置 |
JP2004133564A (ja) * | 2002-10-09 | 2004-04-30 | Fujitsu Ltd | 文書検索装置 |
-
2008
- 2008-06-25 JP JP2008166084A patent/JP5048598B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0340068A (ja) * | 1989-07-06 | 1991-02-20 | Nec Corp | 文章検索方式 |
JPH1115846A (ja) * | 1997-06-26 | 1999-01-22 | Iwanami Shiyoten:Kk | 情報検索装置および記録媒体 |
JP2003263457A (ja) * | 2002-03-08 | 2003-09-19 | Fujitsu Ltd | 願望又は状況表現に基づく施設情報検索装置 |
JP2004133564A (ja) * | 2002-10-09 | 2004-04-30 | Fujitsu Ltd | 文書検索装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112464641A (zh) * | 2020-10-29 | 2021-03-09 | 平安科技(深圳)有限公司 | 基于bert的机器阅读理解方法、装置、设备及存储介质 |
CN112464641B (zh) * | 2020-10-29 | 2023-01-03 | 平安科技(深圳)有限公司 | 基于bert的机器阅读理解方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP5048598B2 (ja) | 2012-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5647508B2 (ja) | ショートテキスト通信のトピックを識別するためのシステムおよび方法 | |
US20060195435A1 (en) | System and method for providing query assistance | |
Sezer | TS corpus project: An online Turkish dictionary and TS DIY corpus | |
JP2007193697A (ja) | 情報収集装置,情報収集方法およびプログラム | |
KR20090083747A (ko) | 웹 문서 요약 제공을 위한 사용자 단말 장치 및 웹 문서제공 방법 | |
JP2006178599A (ja) | 文書検索装置および方法 | |
JP5048598B2 (ja) | テキスト抽出装置、そのシステム、その方法、および、そのプログラム | |
JP2012108594A (ja) | 検索システム、端末、サーバ、検索方法、プログラム | |
JP5380989B2 (ja) | 辞書機能を備えた電子装置およびプログラム | |
JP4860439B2 (ja) | 質問文の自動生成システム | |
JP2008059169A (ja) | 中国語例文検索装置および中国語例文検索処理プログラム | |
JP2009205253A (ja) | データ検索プログラム、データ検索装置およびデータ検索方法 | |
JP2004318441A (ja) | かな漢字変換装置及びかな漢字変換方法、並びにかな漢字変換プログラム | |
JP5843235B2 (ja) | Web情報処理装置、web情報処理方法、およびプログラム | |
JP2020021455A (ja) | 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム | |
JP2004318480A (ja) | 電子機器装置、新語抽出方法、およびプログラム | |
JP2003099429A (ja) | 用語集生成装置及び用語集生成プログラム並びに用語集検索装置 | |
JP2005228033A (ja) | 文書検索装置および方法 | |
JP2006172029A (ja) | 検索結果提示方法 | |
JP2011192222A (ja) | 情報処理装置、データ抽出方法、及びプログラム | |
JP2011044031A (ja) | 電子辞書、辞書検索方法、辞書検索プログラム | |
JP2010061532A (ja) | 電子辞書、電子辞書の検索方法及び電子辞書の検索プログラム | |
JP2008262442A (ja) | 検索キーデータを表示させる方法及びサーバ | |
JP2005157547A (ja) | 類似記事抽出方法及びプログラム | |
JP2006092178A (ja) | 検索システム及び検索結果表示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110930 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111011 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120424 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120621 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120710 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120719 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150727 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5048598 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |