JP7324058B2 - 文章解析方法、文章解析プログラム、および文章解析システム - Google Patents
文章解析方法、文章解析プログラム、および文章解析システム Download PDFInfo
- Publication number
- JP7324058B2 JP7324058B2 JP2019106584A JP2019106584A JP7324058B2 JP 7324058 B2 JP7324058 B2 JP 7324058B2 JP 2019106584 A JP2019106584 A JP 2019106584A JP 2019106584 A JP2019106584 A JP 2019106584A JP 7324058 B2 JP7324058 B2 JP 7324058B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- word
- similarity
- information
- synonym
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/131—Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Description
(1)テキスト解析システムを実現するコンピュータ
図1は、実施の形態に係るテキスト解析システム200を実現するコンピュータ100のブロック図である。コンピュータ100は、CPU110、メモリ120、ハードディスクドライブ130、入力デバイス140、出力デバイス150、およびネットワークデバイス160等のハードウェア資源を備える。テキスト解析システム200は、本実施の形態に係るテキスト解析プログラムが、コンピュータ100により実行されることで実現される。
図2は、テキスト解析システム200の機能構成を示すブロック図である。テキスト解析システム200は、ユーザ端末201から「第一テキスト」と「第二テキスト」の文章の入力を受け付け、「第一テキスト」の構成要素である第一単語と「第二テキスト」の構成要素である第二単語の一対の「単語ペア」から、「類義語」および「関連語」を生成する。
ここで、単語類似度DB211、類義語DB212、関連語DB213、カテゴリ情報DB221、関連語適用可能領域DB222へ格納されているデータの構成の説明に先立ち、テキストIDと単語のインデックスについて説明する。図16は、テキストIDと単語のインデックスの例を示す図である。
次に、単語類似度DB211、類義語DB212、関連語DB213、カテゴリ情報DB221、および関連語適用可能領域DB222へ格納されるデータの構成について説明する。以下では、単語類似度DB211、類義語DB212、関連語DB213、カテゴリ情報DB221、および関連語適用可能領域DB222へ格納されるデータは、テーブル形式であるとして説明するが、これに限らず、他のデータ形式であってもよい。
以下、テキスト解析システム200の動作について説明する。
最初に、テキスト解析処理の全体の流れについて説明する。図8は、テキスト解析システムの全体処理手順を示すフローチャートである。
図9は、単語類似度計測処理手順を示すフローチャートである。単語類似度計測処理は、図8に示すステップS801の詳細処理であり、単語類似度計測部231により実行される。
図10は、類義語判定処理手順を示すフローチャートである。類義語判定処理は、図8に示すステップS802の詳細処理であり、類義語判定部232により実行される。
図11は、関連語判定処理手順を示すフローチャートである。関連語判定処理は、図8に示すステップS803の詳細処理であり、関連語判定部233により実行される。
図12は、カテゴリ情報抽出処理手順を示すフローチャートである。カテゴリ情報抽出処理は、図8に示すステップS804の詳細処理であり、カテゴリ情報抽出部234により実行される。
図13は、関連語適用可能領域特定処理手順を示すフローチャートである。関連語適用可能領域特定処理は、図8に示すステップS805の詳細処理であり、関連語適用可能領域特定部235により実行される。
図14は、第一のテキストと第二のテキストの対応関係判定処理手順を示すフローチャートである。第一のテキストと第二のテキストの対応関係判定処理は、図8に示すステップS806の詳細処理であり、テキスト対応関係判定部236により実行される。
図15は、対応箇所可視化処理結果を示す図である。対応箇所可視化処理は、図8に示すステップS807の詳細処理であり、対応箇所可視化部240により実行される。図8に示すように、例えば、対応箇所可視化部240は、所定の表示画面に、第一テキストT1と、第二テキストT2を並べて表示すると共に、第一テキストT1と対応関係があると判定された第二テキストの「対応箇所」を識別可能に表示してもよい。このように表示することで、第一テキストT1に対応する第二テキストT2の対応箇所を容易に識別可能となる。
(1)上述の実施の形態では、「単語ペア」を分類する「類義語」と「関連語」のそれぞれについて1種類ずつとした。しかし、これに限らず、「類義語」と「関連語」のそれぞれについて、判定閾値が異なる複数のタイプを設けてもよい。
120 メモリ
200 テキスト解析システム
201 ユーザ端末
210 単語DB
211 単語類似度DB
212 類義語DB
213 関連語DB
220 テキスト情報DB
221 カテゴリ情報DB
222 関連語適用可能領域DB
230 制御部
231 単語類似度計測部
232 類義語判定部
233 関連語判定部
234 カテゴリ情報抽出部
235 関連語適用可能領域特定部
236 テキスト対応関係判定部
240 対応箇所可視化部
Claims (8)
- 第一テキストと第二テキストの対応箇所との対応関係を判定する文章解析システムが行う文章解析方法であって、
前記文章解析システムは、メモリと、前記メモリと協働するプロセッサと、記憶部と、を有し、
前記プロセッサが、
前記第一テキストおよび前記第二テキストに対して、テキストを構成する構成要素に分解する要素分解処理を実行して、前記第一テキストの第一構成要素と前記第二テキストの第二構成要素とをそれぞれ生成し、
前記第一構成要素と前記第二構成要素とを1つずつ組合わせた全ての構成要素ペアについて構成要素の類似度を計測し、該構成要素ペアと該類似度とを対応付けた類似度情報を前記記憶部に格納し、
前記類似度情報において、前記類似度が所定値以上である前記構成要素ペアを類義語と判定し、該構成要素ペアに該所定値以上の該類似度を類義語スコアとして対応付けた類義語情報を前記記憶部に格納し、
前記類似度情報において、前記類似度が前記所定値未満である前記構成要素ペアを関連語と判定し、該構成要素ペアに該所定値未満の該類似度の符号を反転させた関連語スコアを対応付けた関連語情報を前記記憶部に格納し、
前記類義語情報における前記類義語に係る2つの前記第二構成要素の組合せのうちで、該2つの前記第二構成要素に係る前記類義語スコアの積である第一確信度が最大となる前記第二構成要素の組合せに基づいて前記第二テキストにおいて前記関連語を適用する関連語適用可能領域を特定し、該第二構成要素の組合せを前記第二テキストにおける開始位置及び終了位置とする該関連語適用可能領域に係る関連語適用可能領域情報を前記記憶部に格納し、
前記関連語適用可能領域情報における前記関連語適用可能領域の前記開始位置から前記終了位置までに含まれる2つの前記第二構成要素の組合せのうちで、該2つの前記第二構成要素に係る前記関連語スコアの和又は積である第二確信度が最大となる前記第二構成要素の組合せで特定される前記関連語適用可能領域の部分領域を前記対応箇所と特定し、
前記第二確信度が、閾値以上である場合に前記第一テキストと前記対応箇所とに対応関係があると判定し、該閾値未満である場合に前記第一テキストと前記対応箇所とに対応関係がないと判定する
各処理を含んだことを特徴とする文章解析方法。 - 前記類似度は、複数種類の類似度を含む
ことを特徴とする請求項1に記載の文章解析方法。 - 前記プロセッサが、
前記第一確信度が最大となる前記第二構成要素の組合せで特定される前記第二テキストの部分領域を所定範囲だけ拡大して前記関連語適用可能領域を生成する
ことを特徴とする請求項1に記載の文章解析方法。 - 前記プロセッサが、
ユーザによって入力された、前記第一構成要素及び前記第二構成要素に対して付与された構成要素のカテゴリのタイプ及びカテゴリ値を対応付けたカテゴリ情報を前記記憶部に格納し、
前記第一構成要素と前記第二構成要素の前記タイプ及び前記カテゴリ値が一致する場合に1を取り、一致しない場合に0を取るカテゴリスコアが定義され、前記第一構成要素と前記第二構成要素が一致する場合に1を取り、一致しない場合に0を取る一致情報が定義された場合に、
前記第一確信度は、前記類義語情報に格納されている前記類義語に係る2つの前記第二構成要素の組合せのうちで、該2つの前記第二構成要素に係る前記類義語スコアと、該2つの前記第二構成要素と前記類義語をなす前記第一構成要素に係る前記カテゴリスコア及び前記一致情報の少なくとも一方と、に基づく
ことを特徴とする請求項3に記載の文章解析方法。 - 前記プロセッサが、
ユーザによって入力された、前記第一構成要素及び前記第二構成要素に対して付与された構成要素のカテゴリのタイプ及びカテゴリ値を対応付けたカテゴリ情報を前記記憶部に格納し、
前記第一構成要素と前記第二構成要素の前記タイプ及び前記カテゴリ値が一致する場合に1を取り、一致しない場合に0を取るカテゴリスコアが定義され、前記第一構成要素と前記第二構成要素が一致する場合に1を取り、一致しない場合に0を取る一致情報が定義された場合に、
前記第二確信度は、前記関連語適用可能領域情報に格納されている前記関連語適用可能領域の前記開始位置から前記終了位置までに含まれる2つの前記第二構成要素の組合せのうちで、該2つの前記第二構成要素に係る前記関連語スコアと、該2つの前記第二構成要素と前記関連語をなす前記第一構成要素に係る前記カテゴリスコア及び前記一致情報の少なくとも一方と、に基づく
ことを特徴とする請求項1に記載の文章解析方法。 - 前記プロセッサが、
前記対応箇所を対応箇所可視化部に出力して可視化する
ことを特徴とする請求項1に記載の文章解析方法。 - メモリと、前記メモリと協働するプロセッサと、記憶部と、を有するコンピュータを、第一テキストと第二テキストの対応箇所との対応関係を判定する文章解析システムとして機能させるための文章解析プログラムであって、
前記プロセッサに、
前記第一テキストおよび前記第二テキストに対して、テキストを構成する構成要素に分解する要素分解処理を実行して、前記第一テキストの第一構成要素と前記第二テキストの第二構成要素とをそれぞれ生成し、
前記第一構成要素と前記第二構成要素とを1つずつ組合わせた全ての構成要素ペアについて構成要素の類似度を計測し、該構成要素ペアと該類似度とを対応付けた類似度情報を前記記憶部に格納し、
前記類似度情報において、前記類似度が所定値以上である前記構成要素ペアを類義語と判定し、該構成要素ペアに該所定値以上の該類似度を類義語スコアとして対応付けた類義語情報を前記記憶部に格納し、
前記類似度情報において、前記類似度が前記所定値未満である前記構成要素ペアを関連語と判定し、該構成要素ペアに該所定値未満の該類似度の符号を反転させた関連語スコアを対応付けた関連語情報を前記記憶部に格納し、
前記類義語情報における前記類義語に係る2つの前記第二構成要素の組合せのうちで、該2つの前記第二構成要素に係る前記類義語スコアの積である第一確信度が最大となる前記第二構成要素の組合せに基づいて前記第二テキストにおいて前記関連語を適用する関連語適用可能領域を特定し、該第二構成要素の組合せを前記第二テキストにおける開始位置及び終了位置とする該関連語適用可能領域に係る関連語適用可能領域情報を前記記憶部に格納し、
前記関連語適用可能領域情報における前記関連語適用可能領域の前記開始位置から前記終了位置までに含まれる2つの前記第二構成要素の組合せのうちで、該2つの前記第二構成要素に係る前記関連語スコアの和又は積である第二確信度が最大となる前記第二構成要素の組合せで特定される前記関連語適用可能領域の部分領域を前記対応箇所と特定し、
前記第二確信度が、閾値以上である場合に前記第一テキストと前記対応箇所とに対応関係があると判定し、該閾値未満である場合に前記第一テキストと前記対応箇所とに対応関係がないと判定する
各処理を実行させるための文章解析プログラム。 - 第一テキストと第二テキストの対応箇所との対応関係を判定する文章解析システムであって、
メモリと、前記メモリと協働するプロセッサと、記憶部と、を有し、
前記プロセッサは、
前記第一テキストおよび前記第二テキストに対して、テキストを構成する構成要素に分解する要素分解処理を実行して、前記第一テキストの第一構成要素と前記第二テキストの第二構成要素とをそれぞれ生成し、
前記第一構成要素と前記第二構成要素とを1つずつ組合わせた全ての構成要素ペアについて構成要素の類似度を計測し、該構成要素ペアと該類似度とを対応付けた類似度情報を前記記憶部に格納し、
前記類似度情報において、前記類似度が所定値以上である前記構成要素ペアを類義語と判定し、該構成要素ペアに該所定値以上の該類似度を類義語スコアとして対応付けた類義語情報を前記記憶部に格納し、
前記類似度情報において、前記類似度が前記所定値未満である前記構成要素ペアを関連語と判定し、該構成要素ペアに該所定値未満の該類似度の符号を反転させた関連語スコアを対応付けた関連語情報を前記記憶部に格納し、
前記類義語情報における前記類義語に係る2つの前記第二構成要素の組合せのうちで、該2つの前記第二構成要素に係る前記類義語スコアの積である第一確信度が最大となる前記第二構成要素の組合せに基づいて前記第二テキストにおいて前記関連語を適用する関連語適用可能領域を特定し、該第二構成要素の組合せを前記第二テキストにおける開始位置及び終了位置とする該関連語適用可能領域に係る関連語適用可能領域情報を前記記憶部に格納し、
前記関連語適用可能領域情報における前記関連語適用可能領域の前記開始位置から前記終了位置までに含まれる2つの前記第二構成要素の組合せのうちで、該2つの前記第二構成要素に係る前記関連語スコアの和又は積である第二確信度が最大となる前記第二構成要素の組合せで特定される前記関連語適用可能領域の部分領域を前記対応箇所と特定し、
前記第二確信度が、閾値以上である場合に前記第一テキストと前記対応箇所とに対応関係があると判定し、該閾値未満である場合に前記第一テキストと前記対応箇所とに対応関係がないと判定する
各処理を実行することを特徴とする文章解析システム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019106584A JP7324058B2 (ja) | 2019-06-06 | 2019-06-06 | 文章解析方法、文章解析プログラム、および文章解析システム |
US16/831,383 US20200387668A1 (en) | 2019-06-06 | 2020-03-26 | Text analysis method, non-transitory computer-readable recording medium for storing text analysis program, and text analysis system |
CN202010284172.1A CN112052661A (zh) | 2019-06-06 | 2020-04-13 | 文章解析方法、记录介质及文章解析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019106584A JP7324058B2 (ja) | 2019-06-06 | 2019-06-06 | 文章解析方法、文章解析プログラム、および文章解析システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020201607A JP2020201607A (ja) | 2020-12-17 |
JP7324058B2 true JP7324058B2 (ja) | 2023-08-09 |
Family
ID=73609153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019106584A Active JP7324058B2 (ja) | 2019-06-06 | 2019-06-06 | 文章解析方法、文章解析プログラム、および文章解析システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20200387668A1 (ja) |
JP (1) | JP7324058B2 (ja) |
CN (1) | CN112052661A (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7316165B2 (ja) * | 2019-09-20 | 2023-07-27 | 株式会社日立製作所 | 情報処理方法および情報処理装置 |
US11176198B2 (en) * | 2019-09-25 | 2021-11-16 | Open Text Holdings, Inc. | System and method for pre-indexing filtering and correction of documents in search systems |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002169803A (ja) | 2000-09-25 | 2002-06-14 | Fujitsu Ltd | 複数の文書を閲覧するための装置および方法 |
JP2005251038A (ja) | 2004-03-05 | 2005-09-15 | Just Syst Corp | 文書検索装置、文書検索方法、および文書検索プログラム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07253987A (ja) * | 1994-03-16 | 1995-10-03 | Toshiba Corp | 文書検索システムと文書検索方法 |
US7644047B2 (en) * | 2003-09-30 | 2010-01-05 | British Telecommunications Public Limited Company | Semantic similarity based document retrieval |
US20070073745A1 (en) * | 2005-09-23 | 2007-03-29 | Applied Linguistics, Llc | Similarity metric for semantic profiling |
US20080114750A1 (en) * | 2006-11-14 | 2008-05-15 | Microsoft Corporation | Retrieval and ranking of items utilizing similarity |
US20140249799A1 (en) * | 2013-03-04 | 2014-09-04 | Microsoft Corporation | Relational similarity measurement |
RU2607975C2 (ru) * | 2014-03-31 | 2017-01-11 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Построение корпуса сравнимых документов на основе универсальной меры похожести |
US10095784B2 (en) * | 2015-05-29 | 2018-10-09 | BloomReach, Inc. | Synonym generation |
-
2019
- 2019-06-06 JP JP2019106584A patent/JP7324058B2/ja active Active
-
2020
- 2020-03-26 US US16/831,383 patent/US20200387668A1/en not_active Abandoned
- 2020-04-13 CN CN202010284172.1A patent/CN112052661A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002169803A (ja) | 2000-09-25 | 2002-06-14 | Fujitsu Ltd | 複数の文書を閲覧するための装置および方法 |
JP2005251038A (ja) | 2004-03-05 | 2005-09-15 | Just Syst Corp | 文書検索装置、文書検索方法、および文書検索プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2020201607A (ja) | 2020-12-17 |
US20200387668A1 (en) | 2020-12-10 |
CN112052661A (zh) | 2020-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107644011B (zh) | 用于细粒度医疗实体提取的系统和方法 | |
US7562088B2 (en) | Structure extraction from unstructured documents | |
WO2021042521A1 (zh) | 一种合同自动生成方法、计算机设备及计算机非易失性存储介质 | |
US9489350B2 (en) | Systems and methods for semantic search, content correlation and visualization | |
US20080162455A1 (en) | Determination of document similarity | |
JPH11259498A (ja) | 文書処理装置および記録媒体 | |
US11030183B2 (en) | Automatic content-based append detection | |
JP5900367B2 (ja) | 検索装置、検索方法及びプログラム | |
US8626737B1 (en) | Method and apparatus for processing electronically stored information for electronic discovery | |
CN111460095B (zh) | 问答处理方法、装置、电子设备及存储介质 | |
CN108804418B (zh) | 一种基于语义分析的文档查重方法和装置 | |
CN109933803B (zh) | 一种成语信息展示方法、展示装置、电子设备及存储介质 | |
WO2021249311A1 (zh) | 命名实体的识别方法、识别设备及电子设备 | |
JP7324058B2 (ja) | 文章解析方法、文章解析プログラム、および文章解析システム | |
CN116628229B (zh) | 一种利用知识图谱生成文本语料的方法及装置 | |
JP2003281186A (ja) | 類似性判断のための例題ベース検索方法及び検索システム | |
CN112989010A (zh) | 数据查询方法、数据查询装置和电子设备 | |
JP2019032704A (ja) | 表データ構造化システムおよび表データ構造化方法 | |
CN110534170A (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
JP2017199348A (ja) | データベース管理装置およびその方法 | |
US20210271637A1 (en) | Creating descriptors for business analytics applications | |
US11645312B2 (en) | Attribute extraction apparatus and attribute extraction method | |
JP6210865B2 (ja) | データ検索システムおよびデータ検索方法 | |
TWI547888B (zh) | A method of recording user information and a search method and a server | |
Hartmann et al. | Context-aware form filling for web applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230331 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230704 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230728 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7324058 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |