JP7324058B2 - 文章解析方法、文章解析プログラム、および文章解析システム - Google Patents

文章解析方法、文章解析プログラム、および文章解析システム Download PDF

Info

Publication number
JP7324058B2
JP7324058B2 JP2019106584A JP2019106584A JP7324058B2 JP 7324058 B2 JP7324058 B2 JP 7324058B2 JP 2019106584 A JP2019106584 A JP 2019106584A JP 2019106584 A JP2019106584 A JP 2019106584A JP 7324058 B2 JP7324058 B2 JP 7324058B2
Authority
JP
Japan
Prior art keywords
text
word
similarity
information
synonym
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019106584A
Other languages
English (en)
Other versions
JP2020201607A (ja
Inventor
健一 横手
真 岩山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2019106584A priority Critical patent/JP7324058B2/ja
Priority to US16/831,383 priority patent/US20200387668A1/en
Priority to CN202010284172.1A priority patent/CN112052661A/zh
Publication of JP2020201607A publication Critical patent/JP2020201607A/ja
Application granted granted Critical
Publication of JP7324058B2 publication Critical patent/JP7324058B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/131Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Description

本発明は、概して文章解析方法、文章解析プログラム、および文章解析システムに関する。
例えば新聞記事とそれに対応するSNS(Social Networking Service)上の投稿のように、対となる二つの文書があるとき、後者の各文が、前者の何れの文に基づいて書かれたかを推定する技術がある。本技術を用いれば、例えばSNS上の投稿に対応する情報を新聞記事から収集できる。この様な情報は、投稿内容の背景を確認することや、投稿内容を信用するかどうかの意思決定に役立つ。
文と文の対応関係の推定は、一方の文に含まれる単語が他方の文にも含まれるかどうかなどで行う。例えば特許文献1および特許文献2には、二つの文における単語間の対応関係を推定する方法が開示されている。
特開2019-16074号公報 特開2012-14245号公報
例えば、「被災者を助けるべきだ」と「被災者を救うべきだ」の二文は、「助ける」と「救う」に対応関係がある。この様に完全一致でない単語間の対応関係を推定する方法として、単語間の類似度を計測して元の単語から別の単語を抽出し、別の単語と完全一致すれば、対応関係があると判断する方法がある。この例示では、「被災者を助けるべきだ」の「助ける」から「救う」を抽出し、「被災者を救うべきだ」の「救う」との完全一致を評価することで、「助ける」と「救う」の対応関係を評価する。
単語間の類似度の計測には、概念辞書や単語分散表現を用いる方法がある。ここで、抽出時に元の単語と高い類似度が評価された別の単語を「類義語」と定義する。また、抽出時に元の単語と低い類似度が評価された別の単語を「関連語」と定義する。関連語は、「被災者が苦しんでいる」と「被災者を救うべきだ」の様に、単語間の類似度が低いが対応関係を有する二文を推定することを可能にする場合がある。一方で、「被災者が苦しんでいる」と「糖尿病患者が苦しんでいる」の二文の様に、単語間の類似度が低いことは、必ずしも二文が対応関係を有することを示すものではない。
さらに、文の対応関係を推定するための要素として不適切な関連語を「ノイズ」と定義する。前述の例示では、「被災者」から関連語として抽出した「糖尿病患者」がノイズである。関連語にはノイズが多く、対応関係を有する文を検索する際に用いると、精度を改善する効果より、精度を劣化させる影響の方が大きい。
本発明は以上の点を考慮してなされたもので、対応関係を有する文章を精度良く検索することを1つの目的とする。
かかる課題を解決するため本発明においては、1つの目的を解決する一手段として、文章解析システムが行う文章解析方法は、第一テキストおよび第二テキストのそれぞれから、要素分解処理を実行して得られるテキストの構成単位を生成し、前記第一テキストの構成単位と、前記第二テキストの構成単位との各構成単位ペアの類似度を計測する計測ステップと、前記各構成単位ペアが、前記類似度が所定値以上である類義語、および、前記類似度が前記所定値未満である関連語の何れであるかを判定する類義語関連語判定ステップと、前記類義語関連語判定ステップによって判定された類義語をもとに、前記第二テキストから前記関連語を適用する関連語適用可能領域を特定する特定ステップと、前記類義語関連語判定ステップによって判定された関連語をもとに、前記関連語適用可能領域と前記第一テキストとの対応関係を判定する対応関係判定ステップとを含んだことを特徴とする。
本発明によれば、例えば、対応関係を有する文章を精度良く検索することができる。
実施の形態に係るテキスト解析システムを実現するコンピュータのブロック図である。 テキスト解析システムの機能構成を示すブロック図である。 単語類似度DBのデータの構成例を示す図である。 類義語DBのデータの構成例を示す図である。 関連語DBのデータの構成例を示す図である。 カテゴリ情報DBのデータの構成例を示す図である。 関連語適用可能領域DBのデータの構成例を示す図である。 テキスト解析システムの全体処理手順を示すフローチャートである。 単語類似度計測処理手順を示すフローチャートである。 類義語判定処理手順を示すフローチャートである。 関連語判定処理手順を示すフローチャートである。 カテゴリ情報抽出処理手順を示すフローチャートである。 関連語適用可能領域特定処理手順を示すフローチャートである。 第一のテキストと第二のテキストの対応関係判定処理手順を示すフローチャートである。 対応箇所可視化処理結果を示す図である。 テキストIDと単語のインデックスの例を示す図である。
以下、図面に基づき、本発明の実施の形態を詳述する。本明細書において、各図面の同一参照番号は、同一あるいは類似の構成または処理を示す。また、後出の実施の形態の説明では前出の実施の形態との差分のみを説明し、後出の説明を省略する場合がある。また、各実施の形態は、本発明の技術思想の範囲内かつ整合する範囲内で一部または全部を組合せることができる。
[実施の形態]
(1)テキスト解析システムを実現するコンピュータ
図1は、実施の形態に係るテキスト解析システム200を実現するコンピュータ100のブロック図である。コンピュータ100は、CPU110、メモリ120、ハードディスクドライブ130、入力デバイス140、出力デバイス150、およびネットワークデバイス160等のハードウェア資源を備える。テキスト解析システム200は、本実施の形態に係るテキスト解析プログラムが、コンピュータ100により実行されることで実現される。
例えば、テキスト解析システム200は、ハードディスクドライブ130に記憶されたテキスト解析プログラムがCPU110およびメモリ120の協働により実行されることによって実現される。テキスト解析プログラムは、頒布可能な媒体から媒体読み取り装置を介して取得され、または、ネットワークを介して外部装置から取得され、テキスト解析システム200上で実行される。ただし、テキスト解析システム200の実現態様は、これらに限定されない。
(2)テキスト解析システムの機能構成
図2は、テキスト解析システム200の機能構成を示すブロック図である。テキスト解析システム200は、ユーザ端末201から「第一テキスト」と「第二テキスト」の文章の入力を受け付け、「第一テキスト」の構成要素である第一単語と「第二テキスト」の構成要素である第二単語の一対の「単語ペア」から、「類義語」および「関連語」を生成する。
本実施の形態では、形態素解析に代表される、文またはフレーズの要素分解処理により分解されたテキストの構成要素を、例として「単語」と称する。しかし、テキストに対して行う要素分解処理は形態素解析に限らず、テキストの構成要素は「単語」に限らない。「類義語」は、類似度が所定閾値以上の「単語ペア」の単語である。「関連語」は、類似度が所定閾値未満の「単語ペア」の単語である。
また、テキスト解析システム200は、ユーザ端末201から「カテゴリ情報」の入力を受け付ける、あるいは、単語の開始位置と終了位置で示されるテキスト内の領域に関する「カテゴリ情報」を生成する。そして、テキスト解析システム200は、「単語」、「類義語」、および「カテゴリ情報」をもとに「第二テキスト」の「関連語適用可能領域」を特定する。
さらに、テキスト解析システム200は、「単語」および「関連語」をもとに、「第一テキスト」が「第二テキスト」の「関連語適用可能領域」のうちの何れの領域に対応するかの対応関係を判定して、対応箇所を可視化する。
なお、「第一テキスト」と「第二テキスト」は、予め対応関係が有ることを必ずしも前提としない。また、「第一テキスト」と「第二テキスト」の呼称は便宜上のものに過ぎず、「第一テキスト」と対応関係がある「第二テキスト」の対応箇所の抽出に限らず、「第二テキスト」と対応関係がある「第一テキスト」の対応箇所の抽出であってもよい。
図2に例示するように、テキスト解析システム200は、単語DB210、テキスト情報DB220、制御部230、および対応箇所可視化部240を有する。
単語DB210は、関連語適用可能領域の特定と、第一テキストと第二テキストの対応関係の判定に必要となるデータの内、単語に関連付くデータを格納する。単語DB210は、単語ペアの類似度情報を格納する単語類似度DB211と、類義語情報を格納する類義語DB212と、関連語情報を格納する関連語DB213とから構成される。各データの詳細構成は、図3、図4、および図5を参照して後述する。
なお、単語類似度DB211のデータは、単語類似度計測部231によって生成される。また、類義語DB212のデータは、類義語判定部232によって生成される。また、関連語DB213のデータは、関連語判定部233によって生成される。単語類似度計測部231、類義語判定部232、および関連語判定部233については後述する。
テキスト情報DB220は、関連語適用可能領域の特定と、第一テキストと第二テキストの対応関係の判定に必要となるデータの内、テキストに関連付くデータを格納する。テキスト情報DB220は、テキストのカテゴリ情報を格納するカテゴリ情報DB221と、第二テキストの関連語適用可能領域を格納する関連語適用可能領域DB222とから構成される。各データの詳細構成は、図6および図7を参照して後述する。
なお、カテゴリ情報DB221のデータは、カテゴリ情報抽出部234によって生成される。また、関連語適用可能領域DB222のデータは、関連語適用可能領域特定部235によって生成される。カテゴリ情報抽出部234および関連語適用可能領域特定部235については後述する。
単語類似度計測部231は、ユーザ端末201から入力された第一テキストと第二テキストのそれぞれから生成された単語の一対の単語ペアの全ての組合せについて、類似度を計測する。類似度は、一つの方法による計測結果に限らず、複数の方法による計測結果が保持されてもよい。計測された類似度情報は、単語類似度DB211へ格納される。
類義語判定部232は、単語類似度DB211を用いて、各単語ペアが類義語かどうかを判定する。類義語と判定された単語ペアに関する類義語情報は、類義語DB212へ格納される。関連語判定部233は、単語類似度DB211を用いて、各単語ペアが関連語かどうかを判定する。関連語と判定された単語ペアに関する関連語情報は、関連語DB213へ格納される。
カテゴリ情報抽出部234は、ユーザ端末201からカテゴリ情報の入力を受け付け、または、ユーザ端末201から入力された第一テキストと第二テキストからカテゴリ情報を抽出する。カテゴリ情報抽出部234は、入力が受け付けられたカテゴリ情報、または、第一テキストと第二テキストから抽出されたカテゴリ情報を、カテゴリ情報DB221へ格納する。
関連語適用可能領域特定部235は、単語類似度DB211、類義語DB212、およびカテゴリ情報DB221を用いて、第二テキスト中の関連語適用可能領域を特定し、関連語適用可能領域DB222へ格納する。
テキスト対応関係判定部236は、単語類似度DB211、関連語DB213、および関連語適用可能領域DB222を用いて、第一テキストと第二テキストの対応関係を判定し、第一テキストと対応する第二テキストの対応箇所を特定する。
対応箇所可視化部240は、テキスト対応関係判定部236による判定結果と、対応箇所を可視化するものであり、GUIを表示するディスプレイ等の出力装置を含む。
(3)テキストIDと単語のインデックス
ここで、単語類似度DB211、類義語DB212、関連語DB213、カテゴリ情報DB221、関連語適用可能領域DB222へ格納されているデータの構成の説明に先立ち、テキストIDと単語のインデックスについて説明する。図16は、テキストIDと単語のインデックスの例を示す図である。
図16に例示するように、「テキストID:n」のテキストTnは、「昨日名古屋にいました。今日は東京にいます。」という文章を含んでいるとする。テキストTnの文章は、要素分解処理によって、「昨日」、「名古屋に」、「いました。」、「今日は」、「東京に」、「います。」という各単語へ分解されたとする。そして、各単語には、例えば「昨日:1」、「名古屋に:2」、「いました。:3」、「今日は:4」、「東京に:5」、「います。:6」の各単語の「インデックス」が付与される。
「テキストID」は、テキストを一意に識別する。また、「インデックス」は、テキスト内で単語およびその出現順序を一意に識別する。よって、「テキストID」と「インデックス」の組合せによって、単語およびその出現位置を一意に識別することができる。
(4)各種DBのデータ構成
次に、単語類似度DB211、類義語DB212、関連語DB213、カテゴリ情報DB221、および関連語適用可能領域DB222へ格納されるデータの構成について説明する。以下では、単語類似度DB211、類義語DB212、関連語DB213、カテゴリ情報DB221、および関連語適用可能領域DB222へ格納されるデータは、テーブル形式であるとして説明するが、これに限らず、他のデータ形式であってもよい。
以下で説明する、単語類似度DB211の単語類似度DBテーブル300、類義語DB212の類義語DBテーブル400、関連語DB213の関連語DBテーブル500、カテゴリ情報DB221のカテゴリ情報DBテーブル600、関連語適用可能領域DB222の関連語適用可能領域DBテーブル700のフィールド構造やフィールドの値は、本実施の形態に限定されるものではない。
図3は、単語類似度DB211のデータの構成例を示す図である。図3に例示するように、単語類似度DB211のデータを格納する単語類似度DBテーブル300は、1以上の「単語類似度」レコードから構成される。そして、「単語類似度」レコードは、「第一単語インデックス」、「第一単語テキストID」、「第二単語インデックス」、「第二単語テキストID」、「WordNet類似度」、「Word2Vec類似度」、「完全一致」等の複数のフィールドから構成される。
フィールド「第一単語インデックス」は、ユーザ端末201から入力された第一テキストから生成した単語のインデックスを保持する。例えば「昨日名古屋にいました。」から、「昨日」、「名古屋に」、「いました。」の3つの単語を順に生成した時、「名古屋に」に対応する単語類似度レコードの「第一単語インデックス」は“2”となる。フィールド「第一単語テキストID」は、ユーザ端末201から入力された第一テキストを一意に識別するための値を保持する。
また、フィールド「第二単語インデックス」は、ユーザ端末201から入力された第二テキストから生成した単語のインデックスを保持する。フィールド「第二単語テキストID」は、ユーザ端末201から入力された第二テキストを一意に識別するための値を保持する。
フィールド「WordNet類似度」は、「第一単語インデックス」および「第一単語テキストID」の値に対応する単語と、「第二単語インデックス」および「第二単語テキストID」の値に対応する単語の、概念辞書WordNetの距離に基づいた類似度を保持する。フィールド「Word2Vec類似度」は、「第一単語インデックス」と「第一単語テキストID」の値に対応する単語と、「第二単語インデックス」と「第二単語テキストID」の値に対応する単語の、単語分散表現Word2Vecの距離に基づいた類似度を保持する。
なお、「WordNet類似度」および「Word2Vec類似度」は、単語の類似度の一例である。類似度は、正規化されもよい。単語類似度DBテーブル300は、単語の類似度を保持するフィールドを、1つあるいは3つ以上含んでもよい。
フィールド「完全一致」は、「第一単語インデックス」および「第一単語テキストID」の値に対応する単語と、「第二単語インデックス」および「第二単語テキストID」の値に対応する単語が完全一致しているかどうかの完全一致情報を保持する。フィールド「完全一致」は、完全一致するとき、1を保持し、完全一致でないとき、0を保持する。
図4は、類義語DB212のデータの構成例を示す図である。図4に例示するように、類義語DB212のデータを格納する類義語DBテーブル400は、1以上の「類義語」レコードから構成される。そして、「類義語」レコードは、「対象単語インデックス」、「対象単語テキストID」、「類義語インデックス」、「類義語テキストID」、「類義語スコア」等の複数のフィールドから構成される。
フィールド「対象単語インデックス」および「対象単語テキストID」と、フィールド「類義語インデックス」および「類義語テキストID」は、後述の類義語判定処理(図11参照)により類義語と判定された、単語類似度DBテーブル300に保持される単語ペアのインデックスおよびテキストIDを保持する。フィールド「対象単語インデックス」および「対象単語テキストID」に第一テキストから生成された単語の「第一単語インデックス」および「第一単語テキストID」の値が保持される場合、フィールド「類義語インデックス」および「類義語テキストID」には第二テキストから生成された単語の「第二単語インデックス」および「第二単語テキストID」の値が保持される。同様に、フィールド「対象単語インデックス」および「対象単語テキストID」に第二テキストから生成された単語の「第二単語インデックス」および「第二単語テキストID」の値が保持される場合、フィールド「類義語インデックス」および「類義語テキストID」には第一テキストから生成された単語の「第一単語インデックス」および「第一単語テキストID」の値が保持される。
フィールド「類義語スコア」は、「対象単語インデックス」および「対象単語テキストID」の値に対応する単語と、「類義語インデックス」および「類義語テキストID」の値に対応する単語の、類義語関係の度合いに関する情報を保持する。
図5は、関連語DB213のデータの構成例を示す図である。図5に例示するように、関連語DB213のデータを格納する関連語DBテーブル500は、1以上の「関連語」レコードから構成される。そして、「関連語」レコードは、「対象単語インデックス」、「対象単語テキストID」、「関連語インデックス」、「関連語テキストID」、および「関連語スコア」等の複数のフィールドから構成される。
フィールド「対象単語インデックス」および「対象単語テキストID」と、フィールド「関連語インデックス」および「関連語テキストID」は、後述の関連語判定処理(図11参照)により関連語と判定された、単語類似度DBテーブル300に保持される単語ペアのインデックスおよびテキストIDを保持する。フィールド「対象単語インデックス」および「対象単語テキストID」に第一テキストから生成された単語の「第一単語インデックス」および「第一単語テキストID」の値が保持される場合、フィールド「関連語インデックス」および「関連語テキストID」には第二テキストから生成された単語の「第二単語インデックス」および「第二単語テキストID」の値が保持される。同様に、フィールド「対象単語インデックス」および「対象単語テキストID」に第二テキストから生成された単語の「第二単語インデックス」および「第二単語テキストID」の値が保持される場合、フィールド「関連語インデックス」および「関連語テキストID」には第一テキストから生成された単語の「第一単語インデックス」および「第一単語テキストID」の値が保持される。
フィールド「関連語スコア」は、「対象単語インデックス」と「対象単語テキストID」の値に対応する単語と、「関連語インデックス」と「関連語テキストID」の値に対応する単語の、関連語関係の度合いに関する情報を保持する。
図6は、カテゴリ情報DB221のデータの構成例を示す図である。図6に例示するように、カテゴリ情報DB221のデータを格納するカテゴリ情報DBテーブル600は、1以上の「カテゴリ情報」レコードから構成される。そして、「カテゴリ情報」レコードは、「テキストID」、「カテゴリタイプ」、「カテゴリ値」、「開始単語インデックス」、および「終了単語インデックス」等の複数のフィールドから構成される。
フィールド「テキストID」は、ユーザ端末201から入力された第一テキストと第二テキストを一意に識別するための値を保持する。
フィールド「カテゴリタイプ」は、カテゴリ情報の分類を保持する。例えば、フィールド「カテゴリタイプ」は、当該「カテゴリ情報」レコードが場所に関するカテゴリ情報であるとき「場所」を保持し、年月に関するカテゴリ情報であるとき「年月」を保持する。
フィールド「カテゴリ値」は、カテゴリ情報の具体的な内容を保持する。フィールド「カテゴリ値」は、複数のカテゴリ情報を持つことができる。例えば、「昨日名古屋にいました。」という1つのテキストから、「昨日」、「名古屋に」、「いました。」の三つの単語が順に生成されたとする。この場合、「昨日」のカテゴリは「年月」であるが、「名古屋に」のカテゴリは「場所」であることから、1つのテキストが複数のカテゴリ情報を持つことができる。このように、カテゴリ情報は、テキストの内容に関連するカテゴリを示す。
フィールド「開始単語インデックス」は、当該「カテゴリ情報」レコードで特定されるカテゴリ情報のテキスト内の開始位置に関する情報を保持する。フィールド「終了単語インデックス」は、当該「カテゴリ情報」レコードで特定されるカテゴリ情報のテキスト内の終了位置に関する情報を保持する。フィールド「開始単語インデックス」および「終了単語インデックス」は、「テキストID」が第一テキストのとき単語類似度DBテーブル300の「第一単語インデックス」の値を保持し、「テキストID」が第二テキストのとき単語類似度DBテーブル300の「第二単語インデックス」の値を保持する。
図7は、関連語適用可能領域DB222のデータの構成例を示す図である。図7に例示するように、関連語適用可能領域DB222のデータを格納する関連語適用可能領域DBテーブル700は、1以上の「関連語適用可能領域」レコードから構成される。そして、「関連語適用可能領域」レコードは、「テキストID」、「開始単語インデックス」、および「終了単語インデックス」等の複数のフィールドから構成される。
フィールド「テキストID」は、ユーザ端末201から入力された第一のテキストと第二のテキストを一意に識別するための値を保持する。
フィールド「開始単語インデックス」は、当該「関連語適用可能領域」レコードで特定される関連語適用可能領域のテキスト内の開始位置に関する情報を保持する。フィールド「終了単語インデックス」は、当該「関連語適用可能領域」レコードで特定される関連語適用可能領域のテキスト内の終了位置に関する情報を保持する。フィールド「開始単語インデックス」および「終了単語インデックス」は、「テキストID」が第一テキストのとき単語類似度DBテーブル300の「第一単語インデックス」の値を保持し、「テキストID」が第二テキストのとき単語類似度DBテーブル300の「第二単語インデックス」の値を保持する。
(5)テキスト解析システムの処理
以下、テキスト解析システム200の動作について説明する。
[テキスト解析処理全体]
最初に、テキスト解析処理の全体の流れについて説明する。図8は、テキスト解析システムの全体処理手順を示すフローチャートである。
先ず、ステップS801では、テキスト解析システム200は、ユーザ端末201から入力された第一テキストおよび第二テキストに対して、単語類似度計測処理を行う。次に、ステップS802では、テキスト解析システム200は、ステップS801で計測された単語類似度情報を用いて類義語を判定する。次に、ステップS803では、テキスト解析システム200は、ステップS801で計測された単語類似度情報を用いて関連語を判定する。
次に、ステップS804では、テキスト解析システム200は、ユーザ端末201から受け付けた入力を受けてカテゴリ情報を抽出する。次に、ステップS805では、テキスト解析システム200は、ステップS804で抽出されたカテゴリ情報を用いて関連語適用可能領域の特定を行う。次に、ステップS806では、テキスト解析システム200は、対応関係判定処理を行う。次に、ステップS807では、テキスト解析システム200は、第一テキストと第二テキストの対応箇所の可視化処理を行う。
最後に、ステップS808では、テキスト解析システム200は、ユーザ端末201から追加テキストの入力があるか否かを判定する。テキスト解析システム200は、追加テキストの入力がある場合(ステップS808YES)、ステップS801に処理を戻す。一方、テキスト解析システム200は、追加テキストの入力がない場合(ステップS808NO)、本テキスト解析処理を終了する。
[単語類似度計測処理]
図9は、単語類似度計測処理手順を示すフローチャートである。単語類似度計測処理は、図8に示すステップS801の詳細処理であり、単語類似度計測部231により実行される。
先ず、ステップS901では、単語類似度計測部231は、ユーザ端末201から入力された第一テキストと第二テキストを受信する。次に、ステップS902では、単語類似度計測部231は、第一テキストと第二テキストから単語を生成する。
次に、ステップS903では、単語類似度計測部231は、ステップS902で生成された第一テキストから生成された第一単語と、第二テキストから生成された第二単語とを1つずつ組合わせた全ての組合せの単語ペアを生成する。次に、ステップS904では、単語類似度計測部231は、ステップS903で生成された全ての組合せの単語ペアのうち、類似度が計測されていない単語ペアが存在するか否かを判定する。単語類似度計測部231は、類似度が計測されていない単語ペアが存在する場合(ステップS904YES)にステップS905へ処理を移し、全ての単語ペアの類似度が計測された場合(ステップS904NO)に本単語類似度計測処理を終了する。
ステップS905では、単語類似度計測部231は、類似度が計測されていない単語ペアの類似度情報、および単語ペアが完全一致するか否かの完全一致情報の生成を行う。次に、ステップS906では、単語類似度計測部231は、ステップS905で生成された類似度情報および完全一致情報を、第一単語インデックス、第一単語テキストID、第二単語インデックス、および第二単語テキストIDに対応付けて単語類似度DB211へ格納する。ステップS906が終了すると、単語類似度計測部231は、ステップS904へ処理を移す。ステップS905において類似度情報を生成する方法は、単語ペアのWordNet内における距離(WordNet類似度)を計測する方法や、単語分散表現の差(Word2Vec類似度)を計測する方法があるが、これらに限定されない。
[類義語判定処理]
図10は、類義語判定処理手順を示すフローチャートである。類義語判定処理は、図8に示すステップS802の詳細処理であり、類義語判定部232により実行される。
先ず、ステップS1001では、類義語判定部232は、単語類似度DB211を用いて、第一テキストと第二テキストから得られる単語ペアの類似度情報を取得する。次に、ステップS1002では、類義語判定部232は、ステップS1001で取得された類似度情報の中に、類義語判定処理が実行されていない単語ペアが存在するか否かを判定する。類義語判定部232は、類義語判定処理が実行されていない単語ペアが存在する場合(ステップS1002YES)にステップS1003へ処理を移し、全ての単語ペアが類義語判定を実行された場合(ステップS1002NO)に本類義語判定処理を終了する。
ステップS1003では、類義語判定部232は、類義語判定処理が実行されていない単語ペアの類義語判定処理を実行する。ステップS1003で類義語を判定する方法の一例として、類義語判定部232は、単語類似度DBテーブル300のフィールド「WordNet類似度」とフィールド「Word2Vec類似度」の値の和が所定閾値(例えば1)以上である場合に、この単語ペアが類義語であると判定する方法がある。しかし、類義語を判定する方法は、これに限定されない。ステップS1003では、類義語判定部232は、類義語と判定された単語ペアの類義語スコアも算出する。類義語スコアは、例えば、「WordNet類似度」と「Word2Vec類似度」の和である。
次に、ステップS1004では、類義語判定部232は、ステップS1003の判定により類義語と判定された単語ペアの単語インデックス、テキストID、および類義語スコアを含む判定結果を類義語DB212へ格納する。ステップS1004が終了すると、類義語判定部232は、ステップS1002へ処理を戻す。
[関連語判定処理]
図11は、関連語判定処理手順を示すフローチャートである。関連語判定処理は、図8に示すステップS803の詳細処理であり、関連語判定部233により実行される。
先ず、ステップS1101では、関連語判定部233は、単語類似度DB211を用いて、第一テキストと第二テキストから得られる単語ペアの類似度情報を取得する。次に、ステップS1102では、関連語判定部233は、ステップS1101で取得された類似度情報の中に、関連語判定処理が実行されていない単語ペアが存在するか否かを判定する。関連語判定部233は、関連語判定が実行されていない単語ペアが存在する場合(ステップS1102YES)にステップS1103へ処理を移し、全ての単語ペアが関連語判定を実行された場合(ステップS1102NO)に本関連語判定処理を終了する。
ステップS1103では、関連語判定部233は、関連語判定処理が実行されていない単語ペアの関連語判定を実行する。ステップS1103で関連語を判定する方法の一例として、関連語判定部233は、単語類似度DBテーブル300のフィールド「WordNet類似度」とフィールド「Word2Vec類似度」の値の和が所定閾値(例えば1)未満である場合に、この単語ペアが関連語であると判定する方法がある。しかし、関連語を判定する方法は、これに限定されない。ステップS1103では、関連語判定部233は、関連語と判定された単語ペアの関連語スコアも算出する。関連語スコアは、例えば、「WordNet類似度」と「Word2Vec類似度」の和に負の符号を付与したものとする。
次に、ステップS1104では、関連語判定部233は、ステップS1103の判定により関連語と判定された単語ペアの単語インデックス、テキストID、および関連語スコアを含む判定結果を関連語DB213へ格納する。ステップS1104が終了すると、関連語判定部233は、ステップS1102へ処理を戻す。
[カテゴリ情報抽出処理]
図12は、カテゴリ情報抽出処理手順を示すフローチャートである。カテゴリ情報抽出処理は、図8に示すステップS804の詳細処理であり、カテゴリ情報抽出部234により実行される。
先ず、ステップS1201では、カテゴリ情報抽出部234は、ユーザ端末201からカテゴリ情報の入力があるか否かを判定する。カテゴリ情報抽出部234は、カテゴリ情報の入力がある場合(ステップS1201YES)にステップS1202へ処理を移し、カテゴリ情報の入力がない場合(ステップS1201NO)にステップS1203へ処理を移す。
ステップS1202では、カテゴリ情報抽出部234は、ユーザ端末201から入力されたカテゴリ情報を受信する。カテゴリ情報抽出部234は、ステップS1202が終了すると、ステップS1204へ処理を移す。
ステップS1203では、カテゴリ情報抽出部234は、第一テキストと第二テキストからカテゴリ情報を抽出する。次に、ステップS1204では、カテゴリ情報抽出部234は、ステップS1202で受信またはステップS1203で抽出されたカテゴリ情報をカテゴリ情報DB221へ格納する。
カテゴリ情報の具体例について説明する。例えば、テキストID:1である第一テキストが「昨日名古屋にいました。今日は東京にいます。」の場合を考える。この場合、第一単語インデックスは、「昨日:1」、「名古屋に:2」、「いました。:3」、「今は:4」、「東京に:5」、「います。:6」である。このような第一テキストからカテゴリ情報を生成するルールの一例として、フィールド「テキストID」が“1”、フィールド「カテゴリタイプ」が“場所”、フィールド「カテゴリ値」が“名古屋”、フィールド「開始単語インデックス」が“1”、フィールド「終了単語インデックス」が“3”である「カテゴリ情報」レコードを生成する方法がある。この例では、第一テキスト内の「昨日名古屋にいました。」、「今日は東京にいます。」の2つの文章のうち、“名古屋”を含む第一文を「カテゴリ値」“名古屋”に該当する領域としている。ただし、カテゴリ情報とその生成方法は、これに限定されない。
[関連語適用可能領域特定処理]
図13は、関連語適用可能領域特定処理手順を示すフローチャートである。関連語適用可能領域特定処理は、図8に示すステップS805の詳細処理であり、関連語適用可能領域特定部235により実行される。
先ず、ステップS1301では、関連語適用可能領域特定部235は、単語類似度DB211を用いて、第二テキストに含まれる単語のインデックス情報を取得する。次に、ステップS1302では、関連語適用可能領域特定部235は、ステップS1301で取得されたインデックス情報から、インデックスのペア(以下、「インデックスペア」という)を生成する。
ここで、「インデックスペア」とは、例えば、第二単語インデックスとして「1」、「2」、「3」が取得された場合、「1」と「2」、「1」と「3」、「2」と「3」のように、後者が前者より値が大きいインデックスの組合せを指す。このような開始インデックスと終了インデックスの組合せにより、テキストの全領域に対する部分領域の全てのパターンを表すことができる。ただし、「インデックスペア」は、これに限定されない。例えば、「1」のように、「インデックスペア」は、1つのインデックスのみを要素として含んでもよい。
次に、ステップS1303では、関連語適用可能領域特定部235は、ステップS1302で生成された全ての「インデックスペア」のうち、確信度評価が実行されていないインデックスペアが存在するか否かを判定する。関連語適用可能領域特定部235は、確信度評価が実行されていないインデックスペアが存在する場合(ステップS1303YES)にステップS1304へ処理を移し、全てのインデックスペアが確信度評価を実行された場合(ステップS1303NO)にステップS1305へ処理を移す。
ステップS1304では、関連語適用可能領域特定部235は、単語類似度DB211、類義語DB212、およびカテゴリ情報DB221を用いて、インデックスペアの確信度を評価する。関連語適用可能領域特定部235は、ステップS1304が終了すると、ステップS1303へ処理を戻す。カテゴリ情報DB221を用いることで、関連語適用可能領域をより精度よく特定できる。
ステップS1304での確信度評価方法は、一例として、次のようなものがある。例えば、ステップS1302で生成された1つの第二テキストのインデックスペアが「3」と「5」であり、単語類似度DB211を用いて第一テキストの第一単語インデックスが「1」から「2」まで取得された場合を考える。すなわち、第一テキストは「1」および「2」の第一単語インデックスの単語から構成され、第二テキストは「3」、「4」、および「5」の第二単語インデックスの単語から構成される場合を考える。
ここで、第一テキストの第一単語インデックスが「2」の単語と、第二テキストの第二単語インデックスが「4」の単語は、カテゴリ情報DB221を参照すると、共に、「カテゴリタイプ」“場所”、「カテゴリ値」“名古屋”のカテゴリ情報に該当するものであったとする。よって、カテゴリ情報が一致するので、カテゴリスコア=1とする。他方、カテゴリ情報が一致する単語が存在しない場合には、カテゴリスコア=0とする。カテゴリスコアは、一致するカテゴリ情報が複数の場合は、例えばそれらの和を取る。ここでは、和に限らず、積などの他の演算値や、各種統計値であってもよい。
また、類義語DB212を参照すると、第二テキストの第二単語インデックスが「3」の単語と、第一テキストの第一単語インデックスが「1」の単語の類義語スコアが1.5であったとする。類義語スコアは、類義語DB212に、第二テキストの第二単語インデックスと第一テキストの第一単語インデックスの組合せに該当する「類義語」レコードが複数存在する場合は、それらの和を取る。ここでも、和に限らず、積などの他の演算値や、最大値などの各種統計値であってもよい。
よって、例えば、「3」と「5」の第二テキストのインデックスペアの確信度は、カテゴリスコア+類義語スコア=1+1.5=2.5と評価する。確信度は、各スコアの単純和に限らず、各スコアの所定の加重和や各種統計値であってもよい。
なお、上述の確信度には、カテゴリスコアは必須ではない。また、上述の確信度には、第一単語インデックスに該当する単語と、第二単語インデックスに該当する単語との完全一致情報が含まれてもよい。この場合の確信度も、各スコアの単純和に限らず、各スコアの所定の加重和や各種統計値であってもよい。確信度に完全一致情報を含めることで、類義語スコアを補完し、確信度の精度を向上させる。
ステップS1305では、関連語適用可能領域特定部235は、ステップS1303およびS1304の繰り返し処理で評価した確信度が最大となるインデックスペアを特定する。次に、ステップS1306では、関連語適用可能領域特定部235は、ステップS1305で特定されたインデックスペアに基づいて、「関連語適用可能領域」を生成し、その「開始インデックス」と「終了インデックス」を特定する。
ステップS1306では、例えば、関連語適用可能領域特定部235は、インデックスペアが「3」と「4」の場合、単語インデックス「3」の値から所定値(例えば2)を減算し、単語インデックス「4」の値へ所定値(例えば2)を加算して、「開始インデックス」が「1」で「終了インデックス」が「6」の「関連語適用可能領域」を生成する。ただし、「関連語適用可能領域」は、これに限定されず、句、文、段落、節、改行等の文の構成単位を1または複数だけ加減算して生成されてもよい。
最後に、ステップS1307では、関連語適用可能領域特定部235は、ステップS1306で生成された「関連語適用可能領域」の「開始インデックス」と「終了インデックス」を、「関連語適用可能領域」の生成元である第二テキストのテキストIDと共に、関連語適用可能領域DB222の関連語適用可能領域DBテーブル700へ格納する。
[対応関係判定処理]
図14は、第一のテキストと第二のテキストの対応関係判定処理手順を示すフローチャートである。第一のテキストと第二のテキストの対応関係判定処理は、図8に示すステップS806の詳細処理であり、テキスト対応関係判定部236により実行される。
先ず、ステップS1401では、テキスト対応関係判定部236は、関連語適用可能領域DB222を用いて、関連語適用可能領域の「開始インデックス」と「終了インデックス」を取得する。次に、ステップS1402では、テキスト対応関係判定部236は、ステップS1401で取得されたインデックス情報から、「インデックスペア」を生成する。
ここでの「インデックスペア」とは、例えば、フィールド「開始インデックス」が「1」で、フィールド「終了インデックス」が「3」の場合、「1」と「2」、「1」と「3」、「2」と「3」のように、後者が前者より値が大きく、かつ、「1」以上「3」以下のインデックスの組合せを指す。ただし、ここでの「インデックスペア」も、これに限定されない。例えば、「1」のように、「インデックスペア」は、1つのインデックスのみを要素として含んでもよい。
次に、ステップS1403では、テキスト対応関係判定部236は、ステップS1402で生成された全ての「インデックスペア」のうち、確信度評価が実行されていないインデックスペアが存在するか否かを判定する。テキスト対応関係判定部236は、確信度評価が実行されていないインデックスペアが存在する場合(ステップS1403YES)にステップS1404へ処理を移し、全てのインデックスペアが確信度評価を実行された場合(ステップS1403NO)にステップS1405へ処理を移す。
ステップS1404では、テキスト対応関係判定部236は、単語類似度DB211、関連語DB213を用いて、インデックスペアの確信度を評価する。テキスト対応関係判定部236は、ステップS1404が終了すると、ステップS1403へ処理を戻す。
ステップS1404での確信度評価方法は、一例として、次のようなものがある。例えば、ステップS1402で生成された1つの関連語適用可能領域のインデックスペアが「3」、「5」であり、単語類似度DB211を用いて第一テキストの第一単語インデックスが「1」から「2」まで取得された場合を考える。すなわち、第一テキストは「1」および「2」の第一単語インデックスの単語から構成され、第二テキストは「3」、「4」、および「5」の第二単語インデックスの単語から構成される場合を考える。
ここで、第二テキストの第二単語インデックスが「3」の単語と、第一テキストの第一単語インデックスが「1」の単語は、関連語DB213を参照すると、関連語スコアが(-0.5)であったとする。関連語スコアは、関連語DB213に、第二テキストの第二単語インデックスと第一テキストの第一単語インデックスの組合せに該当する「関連語」レコードが複数存在する場合は、それらの和を取る。ここでも、和に限らず、積などの他の演算値や、最大値などの各種統計値であってもよい。
よって、例えば、「3」と「5」の第二テキストのインデックスペアの確信度=関連語スコア=-0.5と評価する。
なお、確信度の算出の際に、カテゴリ情報DB221に基づくカテゴリスコアを用いてもよい。この場合の確信度は、各スコアの単純和に限らず、各スコアの所定の加重和や各種統計値であってもよい。また、確信度には、第一単語インデックスに該当する単語と、第二単語インデックスに該当する単語との完全一致情報が含まれてもよい。この場合の確信度も、各スコアの単純和に限らず、各スコアの所定の加重和や各種統計値であってもよい。確信度に完全一致情報を含めることで、関連語スコアを補完し、確信度の精度を向上させる。
ステップS1405では、テキスト対応関係判定部236は、ステップS1403およびS1404の繰り返し処理で評価した確信度が最大となるインデックスペアを特定し、特定されたインデックスペアを、「対応箇所」の「開始インデックス」と「終了インデックス」とする。
最後に、ステップS1406では、テキスト対応関係判定部236は、ステップS1405で特定された「開始インデックス」と「終了インデックス」に基づく第二テキストの「対応箇所」と、第一テキストとの対応関係を評価する。例えば、テキスト対応関係判定部236は、ステップS1405で最大であると特定されたインデックスペアの確信度が、所定閾値以上である場合に第一テキストと第二テキストの「対応箇所」に対応関係があると判定し、所定閾値未満である場合に第一テキストと第二テキストの「対応箇所」に対応関係がないと判定する。
[対応箇所可視化処理]
図15は、対応箇所可視化処理結果を示す図である。対応箇所可視化処理は、図8に示すステップS807の詳細処理であり、対応箇所可視化部240により実行される。図8に示すように、例えば、対応箇所可視化部240は、所定の表示画面に、第一テキストT1と、第二テキストT2を並べて表示すると共に、第一テキストT1と対応関係があると判定された第二テキストの「対応箇所」を識別可能に表示してもよい。このように表示することで、第一テキストT1に対応する第二テキストT2の対応箇所を容易に識別可能となる。
上述の実施の形態では、第二テキストを検索して第一テキストとの対応箇所を判定する際に、先ず、類義語を用いて第二テキストを検索し、検索で得られた適合領域を基点とした前後の所定範囲を関連語適用可能領域として関連語を用いて検索する。このように、概念辞書や単語分散表現を用いて抽出した関連語を、対応箇所である可能性が高い適合領域に基づく関連語適用可能領域へ局所的に適用する。すなわち、第一テキストと第二テキストから得られた関連語を、ノイズを含む可能性が低い関連語適用領域に限定して利用するため、ノイズによって対応箇所の判定精度が劣化する影響を回避しつつ、関連語によって精度を改善する効果を得ることができる。
[その他の実施形態]
(1)上述の実施の形態では、「単語ペア」を分類する「類義語」と「関連語」のそれぞれについて1種類ずつとした。しかし、これに限らず、「類義語」と「関連語」のそれぞれについて、判定閾値が異なる複数のタイプを設けてもよい。
例えば「類義語」に「類義語I」と「類義語II」があり、「関連語」に「類義語I」と「関連語II」があるとする。そして、「第二テキスト」から「第一テキスト」の対応箇所を抽出する際に、何れかのタイプの「類義語」と「関連語」を適宜組合せて、関連語適用可能領域特定処理(図13参照)および対応関係判定処理(図14参照)を行う。これにより、例えば「第二テキスト」における「第一テキスト」の対応箇所として複数の候補を抽出することができ、複数候補からより最適な対応箇所を選択することができる。
(2)上述の実施の形態では、「第一テキスト」が「第二テキスト」の「関連語適用可能領域」のうちの何れの領域に対応するかの対応関係を判定するとした。しかし、これに限らず、「第一テキスト」の全ての部分領域のパターンを網羅するように第一単語インデックスを取得し、「第一テキスト」の各部分領域と対応関係がある「第二テキスト」の対応箇所を抽出することも可能である。これにより、「第一テキスト」と「第二テキスト」の各部分領域について対応箇所を抽出することができる。
以上、本発明の実施の形態について説明したが、本発明は上記した実施の形態に限定されるものではなく、様々な変形例を含む。例えば、上記した実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施の形態の構成の一部を他の実施の形態の構成に置き換えることが可能であり、また、ある実施の形態の構成に他の実施の形態の構成を加えることも可能である。また、各実施の形態の構成の一部について、構成の追加、削除、置換、統合、または分散を行うことが可能である。また、実施の形態で示した各構成および各処理は、処理効率または実装効率に基づいて適宜分散または統合されてもよい。
110 CPU
120 メモリ
200 テキスト解析システム
201 ユーザ端末
210 単語DB
211 単語類似度DB
212 類義語DB
213 関連語DB
220 テキスト情報DB
221 カテゴリ情報DB
222 関連語適用可能領域DB
230 制御部
231 単語類似度計測部
232 類義語判定部
233 関連語判定部
234 カテゴリ情報抽出部
235 関連語適用可能領域特定部
236 テキスト対応関係判定部
240 対応箇所可視化部

Claims (8)

  1. 第一テキストと第二テキストの対応箇所との対応関係を判定する文章解析システムが行う文章解析方法であって、
    前記文章解析システムは、メモリと、前記メモリと協働するプロセッサと、記憶部と、を有し、
    前記プロセッサが、
    前記第一テキストおよび前記第二テキストに対してテキストを構成する構成要素に分解する要素分解処理を実行して、前記第一テキストの第一構成要素と前記第二テキストの第二構成要素とそれぞれ生成し、
    前記第構成要素と前記第構成要素を1つずつ組合わせた全ての構成要素ペアについて構成要素の類似度を計測し、該構成要素ペアと該類似度とを対応付けた類似度情報を前記記憶部に格納し
    前記類似度情報において、前記類似度が所定値以上である前記構成要素ペアを類義語と判定し該構成要素ペアに該所定値以上の該類似度を類義語スコアとして対応付けた類義語情報を前記記憶部に格納し
    前記類似度情報において、前記類似度が前記所定値未満である前記構成要素ペアを関連語と判定し、該構成要素ペアに該所定値未満の該類似度の符号を反転させた関連語スコアを対応付けた関連語情報を前記記憶部に格納し
    前記類義語情報における類義語に係る2つの前記第二構成要素の組合せのうちで該2つの前記第二構成要素に係る前記類義語スコアの積である第一確信度が最大となる前記第二構成要素の組合せに基づいて前記第二テキストにおいて前記関連語を適用する関連語適用可能領域を特定し、該第二構成要素の組合せを前記第二テキストにおける開始位置及び終了位置とする該関連語適用可能領域に係る関連語適用可能領域情報を前記記憶部に格納し
    前記関連語適用可能領域情報における前記関連語適用可能領域の前記開始位置から前記終了位置までに含まれる2つの前記第二構成要素の組合せのうちで、該2つの前記第二構成要素に係る前記関連語スコアの和又は積である第二確信度が最大となる前記第二構成要素の組合せで特定される前記関連語適用可能領域の部分領域を前記対応箇所特定し、
    前記第二確信度が、閾値以上である場合に前記第一テキストと前記対応箇所とに対応関係があると判定し、該閾値未満である場合に前記第一テキストと前記対応箇所対応関係がないと判定する
    各処理を含んだことを特徴とする文章解析方法。
  2. 前記類似度は、複数種類の類似度を含む
    ことを特徴とする請求項1に記載の文章解析方法。
  3. 前記プロセッサが、
    前記第一確信度が最大となる前記第二構成要素の組合せで特定される前記第二テキストの部分領域所定範囲だけ拡大して前記関連語適用可能領域を生成する
    ことを特徴とする請求項1に記載の文章解析方法。
  4. 前記プロセッサが、
    ユーザによって入力された、前記第一構成要素及び前記第二構成要素に対して付与された構成要素のカテゴリのタイプ及びカテゴリ値を対応付けたカテゴリ情報を前記記憶部に格納し、
    前記第一構成要素と前記第二構成要素の前記タイプ及び前記カテゴリ値が一致する場合に1を取り、一致しない場合に0を取るカテゴリスコアが定義され、前記第一構成要素と前記第二構成要素が一致する場合に1を取り、一致しない場合に0を取る一致情報が定義された場合に、
    第一確信度は、前記類義語情報に格納されている前記類義語に係る2つの前記第二構成要素の組合せのうちで該2つの前記第二構成要素に係る前記類義語スコアと、該2つの前記第二構成要素と前記類義語をなす前記第一構成要素に係る前記カテゴリスコア及び前記一致情報の少なくとも一方と、に基づく
    ことを特徴とする請求項3に記載の文章解析方法。
  5. 前記プロセッサが、
    ユーザによって入力された、前記第一構成要素及び前記第二構成要素に対して付与された構成要素のカテゴリのタイプ及びカテゴリ値を対応付けたカテゴリ情報を前記記憶部に格納し、
    前記第一構成要素と前記第二構成要素の前記タイプ及び前記カテゴリ値が一致する場合に1を取り、一致しない場合に0を取るカテゴリスコアが定義され、前記第一構成要素と前記第二構成要素が一致する場合に1を取り、一致しない場合に0を取る一致情報が定義された場合に、
    第二確信度は、前記関連語適用可能領域情報に格納されている前記関連語適用可能領域の前記開始位置から前記終了位置までに含まれる2つの前記第二構成要素の組合せのうちで、該2つの前記第二構成要素に係る前記関連語スコアと、該2つの前記第二構成要素と前記関連語をなす前記第一構成要素に係る前記カテゴリスコア及び前記一致情報の少なくとも一方と、に基づく
    ことを特徴とする請求項に記載の文章解析方法。
  6. 前記プロセッサが、
    前記対応箇所を対応箇所可視化部に出力して可視化する
    とを特徴とする請求項1に記載の文章解析方法。
  7. メモリと、前記メモリと協働するプロセッサと、記憶部と、を有するコンピュータを、第一テキストと第二テキストの対応箇所との対応関係を判定する文章解析システムとして機能させるための文章解析プログラムであって、
    前記プロセッサに
    前記第一テキストおよび前記第二テキストに対してテキストを構成する構成要素に分解する要素分解処理を実行して、前記第一テキストの第一構成要素と前記第二テキストの第二構成要素とそれぞれ生成し、
    前記第構成要素と前記第構成要素を1つずつ組合わせた全ての構成要素ペアについて構成要素の類似度を計測し、該構成要素ペアと該類似度とを対応付けた類似度情報を前記記憶部に格納し
    前記類似度情報において、前記類似度が所定値以上である前記構成要素ペアを類義語と判定し該構成要素ペアに該所定値以上の該類似度を類義語スコアとして対応付けた類義語情報を前記記憶部に格納し
    前記類似度情報において、前記類似度が前記所定値未満である前記構成要素ペアを関連語と判定し、該構成要素ペアに該所定値未満の該類似度の符号を反転させた関連語スコアを対応付けた関連語情報を前記記憶部に格納し
    前記類義語情報における類義語に係る2つの前記第二構成要素の組合せのうちで該2つの前記第二構成要素に係る前記類義語スコアの積である第一確信度が最大となる前記第二構成要素の組合せに基づいて前記第二テキストにおいて前記関連語を適用する関連語適用可能領域を特定し、該第二構成要素の組合せを前記第二テキストにおける開始位置及び終了位置とする該関連語適用可能領域に係る関連語適用可能領域情報を前記記憶部に格納し
    前記関連語適用可能領域情報における前記関連語適用可能領域の前記開始位置から前記終了位置までに含まれる2つの前記第二構成要素の組合せのうちで、該2つの前記第二構成要素に係る前記関連語スコアの和又は積である第二確信度が最大となる前記第二構成要素の組合せで特定される前記関連語適用可能領域の部分領域を前記対応箇所特定し、
    前記第二確信度が、閾値以上である場合に前記第一テキストと前記対応箇所とに対応関係があると判定し、該閾値未満である場合に前記第一テキストと前記対応箇所対応関係がないと判定する
    各処理を実行させるための文章解析プログラム。
  8. 第一テキストと第二テキストの対応箇所との対応関係を判定する文章解析システムであって、
    メモリと、前記メモリと協働するプロセッサと、記憶部と、を有し、
    前記プロセッサは、
    前記第一テキストおよび前記第二テキストに対してテキストを構成する構成要素に分解する要素分解処理を実行して、前記第一テキストの第一構成要素と前記第二テキストの第二構成要素とそれぞれ生成し、
    前記第構成要素と前記第構成要素を1つずつ組合わせた全ての構成要素ペアについて構成要素の類似度を計測し、該構成要素ペアと該類似度とを対応付けた類似度情報を前記記憶部に格納し
    前記類似度情報において、前記類似度が所定値以上である前記構成要素ペアを類義語と判定し該構成要素ペアに該所定値以上の該類似度を類義語スコアとして対応付けた類義語情報を前記記憶部に格納し
    前記類似度情報において、前記類似度が前記所定値未満である前記構成要素ペアを関連語と判定し、該構成要素ペアに該所定値未満の該類似度の符号を反転させた関連語スコアを対応付けた関連語情報を前記記憶部に格納し
    前記類義語情報における類義語に係る2つの前記第二構成要素の組合せのうちで該2つの前記第二構成要素に係る前記類義語スコアの積である第一確信度が最大となる前記第二構成要素の組合せに基づいて前記第二テキストにおいて前記関連語を適用する関連語適用可能領域を特定し、該第二構成要素の組合せを前記第二テキストにおける開始位置及び終了位置とする該関連語適用可能領域に係る関連語適用可能領域情報を前記記憶部に格納し
    前記関連語適用可能領域情報における前記関連語適用可能領域の前記開始位置から前記終了位置までに含まれる2つの前記第二構成要素の組合せのうちで、該2つの前記第二構成要素に係る前記関連語スコアの和又は積である第二確信度が最大となる前記第二構成要素の組合せで特定される前記関連語適用可能領域の部分領域を前記対応箇所特定し、
    前記第二確信度が、閾値以上である場合に前記第一テキストと前記対応箇所とに対応関係があると判定し、該閾値未満である場合に前記第一テキストと前記対応箇所対応関係がないと判定する
    各処理を実行することを特徴とする文章解析システム。
JP2019106584A 2019-06-06 2019-06-06 文章解析方法、文章解析プログラム、および文章解析システム Active JP7324058B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2019106584A JP7324058B2 (ja) 2019-06-06 2019-06-06 文章解析方法、文章解析プログラム、および文章解析システム
US16/831,383 US20200387668A1 (en) 2019-06-06 2020-03-26 Text analysis method, non-transitory computer-readable recording medium for storing text analysis program, and text analysis system
CN202010284172.1A CN112052661A (zh) 2019-06-06 2020-04-13 文章解析方法、记录介质及文章解析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019106584A JP7324058B2 (ja) 2019-06-06 2019-06-06 文章解析方法、文章解析プログラム、および文章解析システム

Publications (2)

Publication Number Publication Date
JP2020201607A JP2020201607A (ja) 2020-12-17
JP7324058B2 true JP7324058B2 (ja) 2023-08-09

Family

ID=73609153

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019106584A Active JP7324058B2 (ja) 2019-06-06 2019-06-06 文章解析方法、文章解析プログラム、および文章解析システム

Country Status (3)

Country Link
US (1) US20200387668A1 (ja)
JP (1) JP7324058B2 (ja)
CN (1) CN112052661A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7316165B2 (ja) * 2019-09-20 2023-07-27 株式会社日立製作所 情報処理方法および情報処理装置
US11176198B2 (en) * 2019-09-25 2021-11-16 Open Text Holdings, Inc. System and method for pre-indexing filtering and correction of documents in search systems

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002169803A (ja) 2000-09-25 2002-06-14 Fujitsu Ltd 複数の文書を閲覧するための装置および方法
JP2005251038A (ja) 2004-03-05 2005-09-15 Just Syst Corp 文書検索装置、文書検索方法、および文書検索プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07253987A (ja) * 1994-03-16 1995-10-03 Toshiba Corp 文書検索システムと文書検索方法
US7644047B2 (en) * 2003-09-30 2010-01-05 British Telecommunications Public Limited Company Semantic similarity based document retrieval
US20070073745A1 (en) * 2005-09-23 2007-03-29 Applied Linguistics, Llc Similarity metric for semantic profiling
US20080114750A1 (en) * 2006-11-14 2008-05-15 Microsoft Corporation Retrieval and ranking of items utilizing similarity
US20140249799A1 (en) * 2013-03-04 2014-09-04 Microsoft Corporation Relational similarity measurement
RU2607975C2 (ru) * 2014-03-31 2017-01-11 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Построение корпуса сравнимых документов на основе универсальной меры похожести
US10095784B2 (en) * 2015-05-29 2018-10-09 BloomReach, Inc. Synonym generation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002169803A (ja) 2000-09-25 2002-06-14 Fujitsu Ltd 複数の文書を閲覧するための装置および方法
JP2005251038A (ja) 2004-03-05 2005-09-15 Just Syst Corp 文書検索装置、文書検索方法、および文書検索プログラム

Also Published As

Publication number Publication date
JP2020201607A (ja) 2020-12-17
US20200387668A1 (en) 2020-12-10
CN112052661A (zh) 2020-12-08

Similar Documents

Publication Publication Date Title
CN107644011B (zh) 用于细粒度医疗实体提取的系统和方法
US7562088B2 (en) Structure extraction from unstructured documents
WO2021042521A1 (zh) 一种合同自动生成方法、计算机设备及计算机非易失性存储介质
US9489350B2 (en) Systems and methods for semantic search, content correlation and visualization
US20080162455A1 (en) Determination of document similarity
JPH11259498A (ja) 文書処理装置および記録媒体
US11030183B2 (en) Automatic content-based append detection
JP5900367B2 (ja) 検索装置、検索方法及びプログラム
US8626737B1 (en) Method and apparatus for processing electronically stored information for electronic discovery
CN111460095B (zh) 问答处理方法、装置、电子设备及存储介质
CN108804418B (zh) 一种基于语义分析的文档查重方法和装置
CN109933803B (zh) 一种成语信息展示方法、展示装置、电子设备及存储介质
WO2021249311A1 (zh) 命名实体的识别方法、识别设备及电子设备
JP7324058B2 (ja) 文章解析方法、文章解析プログラム、および文章解析システム
CN116628229B (zh) 一种利用知识图谱生成文本语料的方法及装置
JP2003281186A (ja) 類似性判断のための例題ベース検索方法及び検索システム
CN112989010A (zh) 数据查询方法、数据查询装置和电子设备
JP2019032704A (ja) 表データ構造化システムおよび表データ構造化方法
CN110534170A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
JP2017199348A (ja) データベース管理装置およびその方法
US20210271637A1 (en) Creating descriptors for business analytics applications
US11645312B2 (en) Attribute extraction apparatus and attribute extraction method
JP6210865B2 (ja) データ検索システムおよびデータ検索方法
TWI547888B (zh) A method of recording user information and a search method and a server
Hartmann et al. Context-aware form filling for web applications

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220217

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230331

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230728

R150 Certificate of patent or registration of utility model

Ref document number: 7324058

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150