JP2013105295A - 情報処理装置及びプログラム - Google Patents

情報処理装置及びプログラム Download PDF

Info

Publication number
JP2013105295A
JP2013105295A JP2011248369A JP2011248369A JP2013105295A JP 2013105295 A JP2013105295 A JP 2013105295A JP 2011248369 A JP2011248369 A JP 2011248369A JP 2011248369 A JP2011248369 A JP 2011248369A JP 2013105295 A JP2013105295 A JP 2013105295A
Authority
JP
Japan
Prior art keywords
documents
word
sentence
document
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011248369A
Other languages
English (en)
Other versions
JP5834795B2 (ja
Inventor
Keigo Hattori
圭悟 服部
Motoyuki Takaai
基行 鷹合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2011248369A priority Critical patent/JP5834795B2/ja
Publication of JP2013105295A publication Critical patent/JP2013105295A/ja
Application granted granted Critical
Publication of JP5834795B2 publication Critical patent/JP5834795B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索キーワードを含まないが検索キーワードに関連している文書を検索の処理対象文に含まれる各単語と検索キーワードとの文法上の関係を示す情報を用いて検索する。
【解決手段】制御部は、検索キーワードに基づいて検索された複数の電子文書からなるクラスタの特徴を表す主成分ベクトルを算出する(S104)。また、制御部は、上記クラスタに属する複数の文書において検索キーワードと係り受け関係にある注目単語、を含む文書を検索する(S108)。そして、制御部は、検索した文書それぞれから注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における注目単語との構文的距離を算出するとともに、構文的距離に基づいて、検索した文書それぞれの特徴ベクトルを算出する(S109)。そして、制御部は、検索した文書のうち、その特徴ベクトルが上記クラスタの主成分ベクトルと類似する文書を特定する(S111)。
【選択図】図4

Description

本発明は、情報処理装置及びプログラムに関する。
近点のシステムのIT化に伴い、大量のデータ(例えば、文書など)がデータベースに蓄積されるようになった。それに伴い、蓄積されたデータの有効利用が各所で求められている。データベースから特定の情報を検索する際、ユーザはキーワードを入力する(以下、入力キーワードと表記する)。通常、入力キーワードを含まない文書は検索結果に現れないが、ユーザが必要とする文書の中には、入力キーワードを含まずとも例えば入力キーワードの同義語を含む文書が存在する。
そこで、下記特許文献1には、入力キーワードの同義語、類義語、上位概念語、及び下位概念語等をシソーラス等の類語辞書を用いて求め、それを用いて検索を行うこと、が記載されている。
ところで、例えば入力キーワードが最近生まれた語句である場合、類語辞書を用いても、入力キーワードの同義語、類義語、上位概念語、及び下位概念語などを求められない場合がある。そこで、下記特許文献2には、入力キーワードに基づいて検索された文書中に含まれる入力キーワード以外の語句を新たな入力キーワードとして再帰的に検索を行うこと、が記載されている。具体的には、特許文献2では、入力キーワードに基づいて検索された文書に含まれる、入力キーワードの近傍の語句が新たな入力キーワードとして用いられている。
特開平09−198393号公報 特開平08−153112号公報
本発明の目的は、検索キーワードを含まないが検索キーワードに関連している文書を検索の処理対象文に含まれる各単語と検索キーワードとの文法上の関係を示す情報を用いて検索できる情報処理装置を提供することである。
上記課題を解決するための請求項1の発明は、所与の検索キーワードに基づいて検索された複数の文書から前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出する第1算出手段と、前記第1算出手段により算出された構文的距離に基づいて、前記複数の文書の各々の特徴ベクトルを算出する第1特徴ベクトル算出手段と、前記複数の文書の各々の特徴ベクトルに基づいて、前記複数の文書からなる文書群の特徴を表す主成分ベクトルを算出する主成分ベクトル算出手段と、前記複数の文書から抽出された文に含まれる単語のうちから前記文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である注目単語を含む文書を検索する検索手段と、前記検索手段により検索された文書それぞれから前記注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記注目単語との構文的距離を算出する第2算出手段と、前記第2算出手段により算出された構文的距離に基づいて、前記検索手段により検索された文書それぞれの特徴ベクトルを算出する第2特徴ベクトル算出手段と、前記検索手段により検索された文書のうち、その特徴ベクトルが前記文書群の主成分ベクトルと類似する文書を特定する特定手段と、前記特定手段により特定された文書を出力手段に出力させる出力制御手段と、を含む情報処理装置である。
また、請求項2の発明は、請求項1の発明において、前記第1特徴ベクトル算出手段は、前記複数の文書から抽出された文に含まれる単語それぞれの評価値を、当該当該単語の構文的距離に基づいて算出する評価手段と、前記評価手段により算出された評価値に基づいて、前記複数の文書の各々の特徴ベクトルを算出する手段と、を含むことを特徴とする。
また、請求項3の発明は、請求項2の発明において、前記第1特徴ベクトル算出手段は、前記複数の文書から抽出された文に含まれる単語と、前記複数の文書から抽出された文に含まれる他の単語と、が所定関係にある場合に、当該単語と当該他の単語をグループ化するグループ化手段と、前記複数の文書から抽出された文に含まれる単語と、前記複数の文書から抽出された文に含まれる他の単語と、が前記所定関係にある場合に、当該単語と当該他の単語とが所属するグループの評価値を、当該単語の評価値と当該他の単語の評価値と、に基づいて算出する手段と、をさらに含むこと、を特徴とする。
ここで、単語と他の単語とが所定関係にある場合とは、例えば「両者のうちの一方が他方の類義語又は同義語である場合」である。また、例えば、単語と他の単語とが所定関係にある場合とは、「両者のうちの一方が動詞である場合において他方がその動詞の名詞形である場合」である。
また、請求項4の発明は、請求項1の発明において、前記第1算出手段は、前記所与の検索キーワードに基づいて検索された他の複数の文書からも前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出し、前記第1特徴ベクトル算出手段は、前記他の複数の文書から抽出された文に含まれる単語それぞれの構文的距離に基づいて、前記他の複数の文書の各々の特徴ベクトルも算出し、前記主成分ベクトル算出手段は、前記他の複数の文書の各々の特徴ベクトルに基づいて、前記他の複数の文書からなる他の文書群の特徴を表す主成分ベクトルも算出し、前記検索手段は、前記他の複数の文書から抽出された文に含まれる単語のうちから前記他の文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である他の注目単語を含む他の文書も検索し、前記第2算出手段は、前記検索手段により検索された他の文書それぞれから前記他の注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記他の注目単語との構文的距離も算出し、前記第2特徴ベクトル算出手段は、前記他の文書のそれぞれから抽出した文に含まれる単語それぞれの構文的距離に基づいて、前記他の文書それぞれの特徴ベクトルも算出し、前記特定手段は、前記検索手段により検索された他の文書のうち、その特徴ベクトルが前記他の文書群の主成分ベクトルと類似する文書も特定し、前記出力制御手段は、前記特定手段により特定された文書及び他の文書を出力手段に出力させ、前記出力制御手段は、前記特定手段により特定された文書の特徴ベクトルと前記文書群の特徴を表す主成分ベクトルとの類似度と、前記特定手段により特定された他の文書の特徴ベクトルと前記他の文書群の特徴を表す主成分ベクトルとの類似度と、に応じた出力順位で、前記特定手段により特定された文書及び他の文書を前記出力手段に出力させること、を特徴とする。
また、上記課題を解決するための請求項5の発明は、所与の検索キーワードに基づいて検索された複数の文書から前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出する第1算出手段、前記第1算出手段により算出された構文的距離に基づいて、前記複数の文書の各々の特徴ベクトルを算出する第1特徴ベクトル算出手段、前記複数の文書の各々の特徴ベクトルに基づいて、前記複数の文書からなる文書群の特徴を表す主成分ベクトルを算出する主成分ベクトル算出手段、前記複数の文書から抽出された文に含まれる単語のうちから前記文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である注目単語を含む文書を検索する検索手段、前記検索手段により検索された文書それぞれから前記注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記注目単語との構文的距離を算出する第2算出手段、前記第2算出手段により算出された構文的距離に基づいて、前記検索手段により検索された文書それぞれの特徴ベクトルを算出する第2特徴ベクトル算出手段、前記検索手段により検索された文書のうち、その特徴ベクトルが前記文書群の主成分ベクトルと類似する文書を特定する特定手段、前記特定手段により特定された文書を出力手段に出力させる出力制御手段、としてコンピュータを機能させるためのプログラムである。
なお、上記プログラムは、インターネットなどの通信ネットワークを介して提供されてもよいし、フレキシブルディスク、CD−ROM、DVD−ROMなどのコンピュータ読み取り可能な各種情報記録媒体に格納されて提供されてもよい。
また、上記プログラムは、コンピュータ読み取り可能な情報記録媒体に記憶されてもよい。情報記録媒体としては、例えば、磁気テープ、フレキシブルディスク、ハードディスク、CD−ROM、MO、MD、DVD−ROM、ICカードなどを用いてもよい。
請求項1、請求項5の発明によれば、検索キーワードを含まないが処理対象文に含まれる各単語と検索キーワードとの構文的距離に基づいて、検索キーワードに関連している文書を検索し、特定することができる。
請求項2の発明によれば、検索キーワードを含まないが検索キーワードに関連している文書を、本構成を有しない場合に比して精度よく検索できる。
請求項3の発明によれば、検索キーワードを含まないが検索キーワードに関連している文書の検索に必要なデータ量を本構成を有しない場合に比して低減することができる。
請求項4の発明によれば、処理対象文書、処理対象文書群の特徴を表すベクトルの類似度に応じた出力順位で検索結果を得ることができる。
情報処理装置の構成を例示する図である。 文書データベースの記憶内容を例示する図である。 第1テーブルを例示する図である。 制御部が実行する処理を例示するフロー図である。 制御部が実行する処理を例示するフロー図である。 制御部が実行する処理を例示するフロー図である。 各単語の評価値Sを例示する図である。 各単語の評価値Sを例示する図である。 第3テーブルを例示する図である。 第4テーブルを例示する図である。 第4テーブルを例示する図である。
以下、本発明の実施形態の例について図面に基づき詳細に説明する。
図1は、本発明の一実施形態に係る情報処理装置1の構成を例示する図である。情報処理装置1は、例えばサーバであり、制御部2、主記憶4、表示部6、及びハードディスク8を備える。なお、情報処理装置1は、キーボードやマウスなどの操作入力手段(不図示)及び通信インタフェース(不図示)なども備えている。
制御部2は、マイクロプロセッサであり、各種情報処理内容に応じて主記憶4に記憶されるプログラムに従って各種情報処理を実行する。主記憶4は、上記プログラムをハードディスク8などから読み込み格納している。このプログラムは、DVD(登録商標)−ROM等のコンピュータ読取可能な情報記憶媒体から読み出されて主記憶4、ハードディスク8に格納されてもよいし、ネットワーク等の通信網から供給されて主記憶4、ハードディスク8に格納されてもよい。また、主記憶4には、情報処理の過程で必要となる各種データも読み出され、格納される。
表示部6は、CRTディスプレイや液晶ディスプレイなどであり、制御部2から入力される情報を出力する。
ハードディスク8は、前述のプログラムの他、各種情報を記憶する情報記憶媒体であり、本実施形態の場合、ハードディスク8は、文書データベースを記憶している。図2は、文書データベースの記憶内容を例示する図である。同図に示すように、文書データベースには、複数の電子文書が格納される。同図に示すように、各電子文書に、固有の識別情報であるDidが付与されている。また、電子文書中の各文に、固有の識別情報であるSidが付与されている。また、図2に図示していないが、電子文書中の各単語に、固有の識別情報であるWidが付与されている。なお、同じ単語には同じWidが付与される。
この情報処理装置1では、文書データベースに格納される各文書に対して形態素解析処理、構文解析、及び意味解析等の自然言語処理が実行され、自然言語処理の結果を示す第1テーブルが、各文ごとにハードディスク8に記憶されるようになっている。図3は、第1テーブルを例示する図である。ここでは、図3は、Did「D001」の電子文書に含まれるSid「S003」の文「勉強のあとの睡眠は記憶の定着に関係する。」の第1テーブルを例示している。同図に示すように、第1テーブルには、文中の各単語のWid及び品詞が格納されている。また、第1テーブルには、各単語の受け語のWidが格納されている。例えば、「勉強」と「あと」とは係り受け関係にあり、「あと」が「勉強」の受け語となっているので、第1テーブルには、「あと」のWidである「W002」が「勉強」の受け語として格納されている。なお、「関係する」は受け語を有さないので、「関係する」の受け語のWidとして「0」が格納される。そのため、「0」は受け語がないことを示すことになる。
なお、第1テーブルには、各単語のtf−idf値なども格納される。
この情報処理装置1では、ユーザが検索キーワードを入力すると、検索キーワードを含む電子文書が文書データベースのうちで検索されるようになっている。それだけでなく、この情報処理装置1では、検索キーワードを含まないが検索キーワードに関連している電子文書が漏れなく検索されるようになっている。以下、この点について説明する。
図4は、キーボードやマウスなどの操作入力手段、あるいは通信インタフェースなど通信手段を経由して、検索キーワードが入力された場合に制御部2が実行する処理を例示するフロー図である。図4に示す処理は、制御部2が上記プログラムに従って動作することで実行される。以下、図4に示す処理を説明する。なお、ここでは、検索キーワードが「定着」であるものとする。
制御部2は、文書データベースのうちで検索キーワードを含む電子文書を検索し、検索された複数の電子文書のDidを取得する(S101)。そして、制御部2(第1算出手段、第1特徴ベクトル算出手段)は、図5に示す処理を検索された電子文書それぞれに対して行うことにより、検索された電子文書それぞれの特徴ベクトルを算出する。以下図5に示す処理について説明する。なお、以下、処理対象となっている電子文書のことを処理対象文書と表記する。
すなわち、制御部2(第1算出手段)は、処理対象文書から検索キーワードを含む文を抽出し、抽出した文それぞれのSidを取得する(S201)。そして、制御部2(第1算出手段、第1特徴ベクトル算出手段)は、抽出した文それぞれに対して図6に示す処理を実行することにより、それぞれの文の特徴ベクトルを算出する(S202)。以下、図6に示す処理について説明する。なお、以下、処理対象となっている文のことを処理対象文と表記する。
すなわち、制御部2(第1算出手段)は、処理対象文の第1テーブルを参照して、処理対象文に含まれる各単語の検索キーワードからの構文的距離rを算出する(S301)。具体的には、制御部2は、検索キーワードとなっている単語の構文的距離rを「1」とする。また、制御部2は、検索キーワードの受け語となっている単語(以下、意味キーワードと表記する)の構文的距離rも「1」とする。また、制御部2は、構文的距離rが「N」(Nは正の整数)の単語に直接係っている単語の構文的距離rを「N+1」とする。図7に、文「勉強のあとの睡眠は記憶の定着に関係する。」が処理対象文である場合を例示した。同図に示すように、検索キーワードとなっている単語「定着」の構文的距離r、及び意味キーワードとなっている単語「関係する」の構文的距離rが「1」となっている。また、構文的距離rが「1」である単語「定着」に係っている単語「記憶」の構文的距離rと、構文的距離rが「1」である単語「関係する」に係っている単語「睡眠」の構文的距離rと、がともに「2」となっている。また、構文的距離rが「2」である単語「睡眠」に係っている単語「あと」の構文的距離が「3」となっている。また、構文的距離rが「3」である単語「あと」に係っている単語「勉強」の構文的距離が「4」となっている。
そして、制御部2(第1特徴ベクトル算出手段)は、処理対象文に含まれる各単語の構文的距離rに基づいて、処理対象文の特徴ベクトルを算出する(S302)。具体的には、制御部2は、処理対象文に含まれる各単語につき、その構文的距離rに基づいて、評価値Sを算出する。本実施形態の場合、制御部2は、処理対象文に含まれる単語の構文的距離rの逆数を、その単語の評価値Sとして算出する。図7に、「勉強のあとの睡眠は記憶の定着に関係する。」が処理対象文である場合における各単語の評価値Sを例示した。また、図8に、他の処理対象文に含まれる各単語の評価値Sも例示した。こうして、処理対象文に含まれる単語の評価値Sを成分とする特徴ベクトルが算出される。各評価値Sにより処理対象文の特徴ベクトルが表される。例えば、「勉強のあとの睡眠は記憶の定着に関係する。」が処理対象文である場合、図7より、当該処理対象文の特徴ベクトルは、(0.25,0.33,0.5,0.5,1.0,1.0)となる。なお、図7及び図8に示すテーブル(以下、第2テーブルと表記する)は、処理対象文ごとに生成され、主記憶4に保持される。
図6に示す処理をS202のステップで実行することにより、処理対象文書から抽出された文それぞれの特徴ベクトルを算出すると、制御部2(第1特徴ベクトル算出手段)は、それらの特徴ベクトルに基づいて、処理対象文書の特徴ベクトルを算出する(S203)。具体的には、制御部2は、処理対象文書から抽出された文それぞれの特徴ベクトルを統合することにより、処理対象文書の特徴ベクトルを算出する。例えば、処理対象文書から抽出された文それぞれについて図7に示す第2テーブルと図8に示す第2テーブルとが生成されている場合、制御部2は、それぞれの第2テーブルを統合して、第3テーブルを生成し、主記憶4に保存する。制御部2は、処理対象文書ごとに第3テーブルを生成することにより、処理対象文書それぞれの特徴ベクトルを算出する。
図9は、図7に示す第2テーブルと第8に示す第2テーブルとを統合してなる第3テーブルを例示する図である。本実施形態の場合、第2テーブルに格納される単語が他の第2テーブルに格納される単語の類義語又は同義語であるか否かを制御部2がハードディスク8に予め記憶されるシソーラスに基づき判定するようになっており、前者の単語が後者の単語の類義語又は同義語である場合、制御部2が、両単語をグループ化し、且つ、それぞれの単語の評価値Sの和を、両単語が属するグループの評価値Sとして算出するようになっている。例えば、例えば、Wid「W001」の単語「勉強」はWid「W009」の単語「学習」の類義語であるため(図9参照)、両単語がグループ化され、且つ、両単語の評価値Sの和が、両単語が属するグループの評価値Sとして算出される。また、本実施形態の場合、第2テーブルに格納される名詞である単語が他の第2テーブルに格納される動詞である単語の名詞形の単語であるか否を制御部2が第1テーブルの記憶内容に基づいて判定するようになっており、前者の単語が後者の単語の名詞形の単語である場合、制御部2が、両単語をグループ化し、且つ、それぞれの単語の評価値Sの和を、両単語が属するグループの評価値Sとして算出するようになっている。例えば、Wid「W003」の単語「睡眠」はWid「W007」の単語「睡眠する」の名詞形の単語であるため(図9参照)、両単語がグループ化され、且つ、両単語の評価値Sの和が、両単語が属するグループの評価値Sとして算出される。なお、ここでは、グループに属する単語のいずれかのWidが、そのグループの識別情報として用いられる。
各評価値Sにより処理対象文書の特徴ベクトルが表される。本実施形態の場合、第3テーブルに格納されていない単語の評価値Sは「0」に設定される。そのため、図9の場合、処理対象文書の特徴ベクトルは、(0.75,0.33,1.0,0.5,2.0,1.0,0.5,0,0,…,0)となる。
こうして、S101のステップで検索された複数の電子文書の各々の特徴ベクトルを算出すると、制御部2は、S103のステップで、これらの電子文書を、所定のクラスタリング手法に従って、複数のクラスタに分類する。本実施形態の場合、クラスタリング手法として、Repeated Bisection法が用いられる。なお、他のクラスタリング手法(例えば、K-means法、leader-follower法)が用いられてもよい。
また、制御部2(主成分ベクトル算出手段)は、S103のステップで、各クラスタに対して公知の主成分分析処理を行うことにより、クラスタごとに、当該クラスタの特徴を表す主成分ベクトルを、当該グループに属する複数の電子文書それぞれの特徴ベクトルに基づいて算出することも行う。本実施形態の場合、制御部2は、主成分ベクトル算出処理を行うことによりクラスタごとに第4テーブルを生成する。図10AにあるクラスタX(複数の文書、文書群)の第4テーブルを例示した。同図に示すように、第4テーブルには主成分となっている単語(以下、主成分語と表記する)ごとに、主成分ベクトル算出処理で算出されたその主成分語の評価値S1が格納される。なお、図10Bに、他のクラスタY(他の複数の文書、他の文書群)の第4テーブルも例示した。
各評価値S1によりクラスタの主成分ベクトルが表される。本実施形態の場合、第4テーブルに格納されていない単語の評価値S1は「0」に設定される。そのため、図10Aの場合、クラスタXの主成分ベクトルは、(0,0,0.5661,0.7659,0,…,0)となる。
こうして、各クラスタの主成分ベクトルを算出すると、制御部2は、各クラスタに対して、S104〜S112のステップの処理を実行する。以下、S104〜S112のステップについて説明する。なお、以下、処理対象となっているクラスタのことを、処理対象クラスタと表記する。
すなわち、制御部2は、処理対象クラスタに属する電子文書の各々につき、検索キーワード(ここでは、「定着」)との一致度を示す数値を算出する(S104)。
また、制御部2は、いわゆるbag of words検索処理を行うことにより、文書データベースのうちで、処理対象クラスタの主成分語(以下、Gキーワードと表記する)を含む電子文書を検索し、検索した電子文書のDidを取得する(S105)。そして、制御部2は、検索した電子文書それぞれにつき、Gキーワードとの一致度を示す数値を算出する(S106)。
また、制御部2(検索手段)は、処理対象クラスタの主成分語ごとに、当該主成分語を含む第1テーブルを読み出し、読み出した第1テーブルに基づいて、処理対象クラスタの主成分語のうちで、検索キーワードを含む語と係り受け関係にある主成分語(以下、注目語と表記する)を特定する(S107)。ここでは、制御部2は、検索キーワードを含む語が受け語となっている主成分語、すなわち、検索キーワードを含む語の係り語となっている主成分語、を特定するが、検索キーワードを含む語の受け語となっている主成分語を特定してもよい。
そして、制御部2(検索手段)は、文書データベースのうちで、注目語を含む電子文書を検索する(S108)。
そして、制御部2(第2算出手段、第2特徴ベクトル算出手段)は、注目語を検索キーワードとしてS102のステップと同様の処理を行うことにより、S108で検索された電子文書それぞれの特徴ベクトルを算出する(S109)。
そして、制御部2(特定手段)は、S108で検索された電子文書ごとに、その特徴ベクトルと処理対象クラスタの主成分ベクトルとの類似度を示す数値を算出する(S110)。具体的には、制御部2は、S108で検索された電子文書ごとに、その特徴ベクトルの単位ベクトルと、処理対象クラスタの主成分ベクトルの単位ベクトルと、の内積を算出する。
そして、制御部2(特定手段)は、S108で検索された電子文書のうちで、その特徴ベクトルと処理対象クラスタの主成分ベクトルとの類似度が閾値以上の電子文書を特定する(S111)。そして、制御部2は、S105で検索された電子文書それぞれと、S111で特定された電子文書それぞれと、につき、上記検索キーワード(すなわち、「定着」)との一致度を算出する(S112)。S105で検索された電子文書については、原則、S106で算出された「Gキーワードとの一致度」が、当該電子文書の「検索キーワードとの一致度」として設定される。また、S111で特定された電子文書については、原則、S110で算出された類似度が、当該電子文書の「検索キーワードとの一致度」として設定される。但し、S105で検索され、且つ、S111で特定もされた電子文書については、制御部2は、S106で算出された「Gキーワードとの一致度」とS110で算出された類似度との平均値を、当該電子文書の「検索キーワードとの一致度」として算出する。
こうして、S104〜S112のステップにより、処理対象クラスタに属する電子文書、S105で検索された電子文書、及びS111で特定された電子文書、のそれぞれにつき、検索キーワードとの一致度が算出される。また、S104〜S112のステップが全クラスタに対して行われることにより、S101のステップで検索された電子文書、クラスタごとにS105で検索された電子文書、及びクラスタごとにS111で特定された電子文書、のそれぞれにつき、検索キーワードとの一致度が算出される。
全クラスタに対してS104〜S112のステップを実行すると、制御部2(出力制御手段)は、S101のステップで検索された電子文書それぞれ、クラスタごとにS105で検索された電子文書それぞれ、及びクラスタごとにS111で特定された電子文書それぞれのリストを、検索結果として表示部6(出力手段)に表示させる(S113)。この際、制御部2は、電子文書のリストを、電子文書それぞれの「検索キーワードとの一致度」に応じた表示順位で表示させる。例えば、制御部2は、電子文書の「検索キーワードとの一致度」が高いほどその電子文書のタイトルを上部に表示させる。
以上のように、情報処理装置1では、特にS107乃至S111のステップが実行されるので、検索キーワードを含まないが検索キーワードに関連していると判定できる電子文書が検索されるようになる。
なお、本発明の実施形態は上記実施形態だけに限らない。
例えば、制御部2は、再帰的に電子文書のクラスタリングを行ってもよい。例えば、制御部2は、S103のステップのあと、クラスタごとに、当該クラスタの主成分ベクトルと、当該クラスタに属する電子文書それぞれの特徴ベクトルと、の類似度を算出するとともに、クラスタごとに、類似度が低い電子文書、すなわち、クラスタへの所属度が低い電子文書を特定してもよい。そして、制御部2が、所属度が低い電子文書として特定された電子文書の集合を対象に再度S103のステップを実行してもよい。
また、例えばハードディスク8(すなわち、文書データベース)は、情報処理装置1と通信可能なデータベースサーバに設けられてもよい。
1 情報処理装置、2 制御部、4 主記憶、6 表示部、8 ハードディスク。

Claims (5)

  1. 所与の検索キーワードに基づいて検索された複数の文書から前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出する第1算出手段と、
    前記第1算出手段により算出された構文的距離に基づいて、前記複数の文書の各々の特徴ベクトルを算出する第1特徴ベクトル算出手段と、
    前記複数の文書の各々の特徴ベクトルに基づいて、前記複数の文書からなる文書群の特徴を表す主成分ベクトルを算出する主成分ベクトル算出手段と、
    前記複数の文書から抽出された文に含まれる単語のうちから前記文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である注目単語を含む文書を検索する検索手段と、
    前記検索手段により検索された文書それぞれから前記注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記注目単語との構文的距離を算出する第2算出手段と、
    前記第2算出手段により算出された構文的距離に基づいて、前記検索手段により検索された文書それぞれの特徴ベクトルを算出する第2特徴ベクトル算出手段と、
    前記検索手段により検索された文書のうち、その特徴ベクトルが前記文書群の主成分ベクトルと類似する文書を特定する特定手段と、
    前記特定手段により特定された文書を出力手段に出力させる出力制御手段と、
    を含む情報処理装置。
  2. 前記第1特徴ベクトル算出手段は、
    前記複数の文書から抽出された文に含まれる単語それぞれの評価値を、当該当該単語の構文的距離に基づいて算出する評価手段と、
    前記評価手段により算出された評価値に基づいて、前記複数の文書の各々の特徴ベクトルを算出する手段と、を含むこと、
    を特徴とする請求項1に記載の情報処理装置。
  3. 前記第1特徴ベクトル算出手段は、
    前記複数の文書から抽出された文に含まれる単語と、前記複数の文書から抽出された文に含まれる他の単語と、が所定関係にある場合に、当該単語と当該他の単語をグループ化するグループ化手段と、
    前記複数の文書から抽出された文に含まれる単語と、前記複数の文書から抽出された文に含まれる他の単語と、が前記所定関係にある場合に、当該単語と当該他の単語とが所属するグループの評価値を、当該単語の評価値と当該他の単語の評価値と、に基づいて算出する手段と、をさらに含むこと、
    を特徴とする請求項2に記載の情報処理装置。
  4. 前記第1算出手段は、
    前記所与の検索キーワードに基づいて検索された他の複数の文書からも前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出し、
    前記第1特徴ベクトル算出手段は、
    前記他の複数の文書から抽出された文に含まれる単語それぞれの構文的距離に基づいて、前記他の複数の文書の各々の特徴ベクトルも算出し、
    前記主成分ベクトル算出手段は、
    前記他の複数の文書の各々の特徴ベクトルに基づいて、前記他の複数の文書からなる他の文書群の特徴を表す主成分ベクトルも算出し、
    前記検索手段は、
    前記他の複数の文書から抽出された文に含まれる単語のうちから前記他の文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である他の注目単語を含む他の文書も検索し、
    前記第2算出手段は、
    前記検索手段により検索された他の文書それぞれから前記他の注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記他の注目単語との構文的距離も算出し、
    前記第2特徴ベクトル算出手段は、
    前記他の文書のそれぞれから抽出した文に含まれる単語それぞれの構文的距離に基づいて、前記他の文書それぞれの特徴ベクトルも算出し、
    前記特定手段は、
    前記検索手段により検索された他の文書のうち、その特徴ベクトルが前記他の文書群の主成分ベクトルと類似する文書も特定し、
    前記出力制御手段は、
    前記特定手段により特定された文書及び他の文書を出力手段に出力させ、
    前記出力制御手段は、
    前記特定手段により特定された文書の特徴ベクトルと前記文書群の特徴を表す主成分ベクトルとの類似度と、前記特定手段により特定された他の文書の特徴ベクトルと前記他の文書群の特徴を表す主成分ベクトルとの類似度と、に応じた出力順位で、前記特定手段により特定された文書及び他の文書を前記出力手段に出力させること、
    を特徴とする請求項1に記載の情報処理装置。
  5. 所与の検索キーワードに基づいて検索された複数の文書から前記検索キーワードを含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記検索キーワードとの構文的距離を算出する第1算出手段、
    前記第1算出手段により算出された構文的距離に基づいて、前記複数の文書の各々の特徴ベクトルを算出する第1特徴ベクトル算出手段、
    前記複数の文書の各々の特徴ベクトルに基づいて、前記複数の文書からなる文書群の特徴を表す主成分ベクトルを算出する主成分ベクトル算出手段、
    前記複数の文書から抽出された文に含まれる単語のうちから前記文書群の主成分ベクトルに基づいて選択される単語のうちの、前記検索キーワードと係り受け関係にある単語である注目単語を含む文書を検索する検索手段、
    前記検索手段により検索された文書それぞれから前記注目単語を含む文を抽出し、抽出した文に含まれる単語それぞれの当該文における前記注目単語との構文的距離を算出する第2算出手段、
    前記第2算出手段により算出された構文的距離に基づいて、前記検索手段により検索された文書それぞれの特徴ベクトルを算出する第2特徴ベクトル算出手段、
    前記検索手段により検索された文書のうち、その特徴ベクトルが前記文書群の主成分ベクトルと類似する文書を特定する特定手段、
    前記特定手段により特定された文書を出力手段に出力させる出力制御手段、
    としてコンピュータを機能させるプログラム。
JP2011248369A 2011-11-14 2011-11-14 情報処理装置及びプログラム Expired - Fee Related JP5834795B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011248369A JP5834795B2 (ja) 2011-11-14 2011-11-14 情報処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011248369A JP5834795B2 (ja) 2011-11-14 2011-11-14 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2013105295A true JP2013105295A (ja) 2013-05-30
JP5834795B2 JP5834795B2 (ja) 2015-12-24

Family

ID=48624793

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011248369A Expired - Fee Related JP5834795B2 (ja) 2011-11-14 2011-11-14 情報処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5834795B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182388A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义分析的文本聚类系统及方法
KR101713487B1 (ko) * 2015-10-08 2017-03-07 한국교육과정평가원 앙상블 기계학습 방법을 이용한 서답형 답안 채점 방법 및 그를 위한 컴퓨터 프로그램
CN110287396A (zh) * 2019-05-07 2019-09-27 清华大学 文本匹配方法及装置
CN110543549A (zh) * 2019-08-30 2019-12-06 北京百分点信息科技有限公司 语义等价性判断方法和装置
US10635897B2 (en) 2017-10-25 2020-04-28 Kabushiki Kaisha Toshiba Document understanding support apparatus, document understanding support method, non-transitory storage medium
JP6689466B1 (ja) * 2019-01-31 2020-04-28 三菱電機株式会社 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム
CN112559691A (zh) * 2020-12-22 2021-03-26 珠海格力电器股份有限公司 语义相似度的确定方法及确定装置、电子设备

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182388A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义分析的文本聚类系统及方法
KR101713487B1 (ko) * 2015-10-08 2017-03-07 한국교육과정평가원 앙상블 기계학습 방법을 이용한 서답형 답안 채점 방법 및 그를 위한 컴퓨터 프로그램
US10635897B2 (en) 2017-10-25 2020-04-28 Kabushiki Kaisha Toshiba Document understanding support apparatus, document understanding support method, non-transitory storage medium
JP6689466B1 (ja) * 2019-01-31 2020-04-28 三菱電機株式会社 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム
WO2020157887A1 (ja) * 2019-01-31 2020-08-06 三菱電機株式会社 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム
CN110287396A (zh) * 2019-05-07 2019-09-27 清华大学 文本匹配方法及装置
CN110287396B (zh) * 2019-05-07 2021-08-03 清华大学 文本匹配方法及装置
CN110543549A (zh) * 2019-08-30 2019-12-06 北京百分点信息科技有限公司 语义等价性判断方法和装置
CN110543549B (zh) * 2019-08-30 2022-02-22 北京百分点科技集团股份有限公司 语义等价性判断方法和装置
CN112559691A (zh) * 2020-12-22 2021-03-26 珠海格力电器股份有限公司 语义相似度的确定方法及确定装置、电子设备
CN112559691B (zh) * 2020-12-22 2023-11-14 珠海格力电器股份有限公司 语义相似度的确定方法及确定装置、电子设备

Also Published As

Publication number Publication date
JP5834795B2 (ja) 2015-12-24

Similar Documents

Publication Publication Date Title
US10496928B2 (en) Non-factoid question-answering system and method
JP5834795B2 (ja) 情報処理装置及びプログラム
Bagheri et al. Care more about customers: Unsupervised domain-independent aspect detection for sentiment analysis of customer reviews
US9373075B2 (en) Applying a genetic algorithm to compositional semantics sentiment analysis to improve performance and accelerate domain adaptation
US9471559B2 (en) Deep analysis of natural language questions for question answering system
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
US20100205198A1 (en) Search query disambiguation
US9734238B2 (en) Context based passage retreival and scoring in a question answering system
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
CN110309251B (zh) 文本数据的处理方法、装置和计算机可读存储介质
KR101508070B1 (ko) 어휘지도를 이용한 용언의 다의어 의미 분석 방법
JP6260294B2 (ja) 情報検索装置、情報検索方法および情報検索プログラム
US20130304471A1 (en) Contextual Voice Query Dilation
US20220180317A1 (en) Linguistic analysis of seed documents and peer groups
JP2011118689A (ja) 検索方法及びシステム
US20120317125A1 (en) Method and apparatus for identifier retrieval
Rodrigues et al. Advanced applications of natural language processing for performing information extraction
Duck et al. Ambiguity and variability of database and software names in bioinformatics
KR101375221B1 (ko) 의료 프로세스 모델링 및 검증 방법
Zou et al. Assessing software quality through web comment search and analysis
WO2018220688A1 (ja) 辞書生成装置、辞書生成方法、及びプログラム
KR20120070713A (ko) 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
Quarteroni et al. Evaluating Multi-focus Natural Language Queries over Data Services.
CN110929501B (zh) 文本分析方法和装置
Kaur et al. A roadmap of sentiment analysis and its research directions

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141022

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151019

R150 Certificate of patent or registration of utility model

Ref document number: 5834795

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees