JP2020201607A - 文章解析方法、文章解析プログラム、および文章解析システム - Google Patents
文章解析方法、文章解析プログラム、および文章解析システム Download PDFInfo
- Publication number
- JP2020201607A JP2020201607A JP2019106584A JP2019106584A JP2020201607A JP 2020201607 A JP2020201607 A JP 2020201607A JP 2019106584 A JP2019106584 A JP 2019106584A JP 2019106584 A JP2019106584 A JP 2019106584A JP 2020201607 A JP2020201607 A JP 2020201607A
- Authority
- JP
- Japan
- Prior art keywords
- text
- word
- related word
- similarity
- synonym
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 62
- 238000012545 processing Methods 0.000 claims abstract description 30
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 78
- 238000005259 measurement Methods 0.000 claims description 17
- 238000012800 visualization Methods 0.000 claims description 12
- 239000000470 constituent Substances 0.000 claims 6
- 238000000605 extraction Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 11
- 238000011156 evaluation Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000000593 degrading effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/131—Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
Description
(1)テキスト解析システムを実現するコンピュータ
図1は、実施の形態に係るテキスト解析システム200を実現するコンピュータ100のブロック図である。コンピュータ100は、CPU110、メモリ120、ハードディスクドライブ130、入力デバイス140、出力デバイス150、およびネットワークデバイス160等のハードウェア資源を備える。テキスト解析システム200は、本実施の形態に係るテキスト解析プログラムが、コンピュータ100により実行されることで実現される。
図2は、テキスト解析システム200の機能構成を示すブロック図である。テキスト解析システム200は、ユーザ端末201から「第一テキスト」と「第二テキスト」の文章の入力を受け付け、「第一テキスト」の構成要素である第一単語と「第二テキスト」の構成要素である第二単語の一対の「単語ペア」から、「類義語」および「関連語」を生成する。
ここで、単語類似度DB211、類義語DB212、関連語DB213、カテゴリ情報DB221、関連語適用可能領域DB222へ格納されているデータの構成の説明に先立ち、テキストIDと単語のインデックスについて説明する。図16は、テキストIDと単語のインデックスの例を示す図である。
次に、単語類似度DB211、類義語DB212、関連語DB213、カテゴリ情報DB221、および関連語適用可能領域DB222へ格納されるデータの構成について説明する。以下では、単語類似度DB211、類義語DB212、関連語DB213、カテゴリ情報DB221、および関連語適用可能領域DB222へ格納されるデータは、テーブル形式であるとして説明するが、これに限らず、他のデータ形式であってもよい。
以下、テキスト解析システム200の動作について説明する。
最初に、テキスト解析処理の全体の流れについて説明する。図8は、テキスト解析システムの全体処理手順を示すフローチャートである。
図9は、単語類似度計測処理手順を示すフローチャートである。単語類似度計測処理は、図8に示すステップS801の詳細処理であり、単語類似度計測部231により実行される。
図10は、類義語判定処理手順を示すフローチャートである。類義語判定処理は、図8に示すステップS802の詳細処理であり、類義語判定部232により実行される。
図11は、関連語判定処理手順を示すフローチャートである。関連語判定処理は、図8に示すステップS803の詳細処理であり、関連語判定部233により実行される。
図12は、カテゴリ情報抽出処理手順を示すフローチャートである。カテゴリ情報抽出処理は、図8に示すステップS804の詳細処理であり、カテゴリ情報抽出部234により実行される。
図13は、関連語適用可能領域特定処理手順を示すフローチャートである。関連語適用可能領域特定処理は、図8に示すステップS805の詳細処理であり、関連語適用可能領域特定部235により実行される。
図14は、第一のテキストと第二のテキストの対応関係判定処理手順を示すフローチャートである。第一のテキストと第二のテキストの対応関係判定処理は、図8に示すステップS806の詳細処理であり、テキスト対応関係判定部236により実行される。
図15は、対応箇所可視化処理結果を示す図である。対応箇所可視化処理は、図8に示すステップS807の詳細処理であり、対応箇所可視化部240により実行される。図8に示すように、例えば、対応箇所可視化部240は、所定の表示画面に、第一テキストT1と、第二テキストT2を並べて表示すると共に、第一テキストT1と対応関係があると判定された第二テキストの「対応箇所」を識別可能に表示してもよい。このように表示することで、第一テキストT1に対応する第二テキストT2の対応箇所を容易に識別可能となる。
(1)上述の実施の形態では、「単語ペア」を分類する「類義語」と「関連語」のそれぞれについて1種類ずつとした。しかし、これに限らず、「類義語」と「関連語」のそれぞれについて、判定閾値が異なる複数のタイプを設けてもよい。
120 メモリ
200 テキスト解析システム
201 ユーザ端末
210 単語DB
211 単語類似度DB
212 類義語DB
213 関連語DB
220 テキスト情報DB
221 カテゴリ情報DB
222 関連語適用可能領域DB
230 制御部
231 単語類似度計測部
232 類義語判定部
233 関連語判定部
234 カテゴリ情報抽出部
235 関連語適用可能領域特定部
236 テキスト対応関係判定部
240 対応箇所可視化部
Claims (11)
- 文章解析システムが行う文章解析方法であって、
第一テキストおよび第二テキストのそれぞれから、要素分解処理を実行して得られるテキストの構成単位を生成し、前記第一テキストの構成単位と、前記第二テキストの構成単位との各構成単位ペアの類似度を計測する計測ステップと、
前記各構成単位ペアが、前記類似度が所定値以上である類義語、および、前記類似度が前記所定値未満である関連語の何れであるかを判定する類義語関連語判定ステップと、
前記類義語関連語判定ステップによって判定された類義語をもとに、前記第二テキストから前記関連語を適用する関連語適用可能領域を特定する特定ステップと、
前記類義語関連語判定ステップによって判定された関連語をもとに、前記関連語適用可能領域と前記第一テキストとの対応関係を判定する対応関係判定ステップと
を含んだことを特徴とする文章解析方法。 - 前記計測ステップにおいて、前記各構成単位ペアについて複数種類の類似度を計測し、
前記類義語関連語判定ステップにおいて、前記複数種類の類似度に基づいて、前記各構成単位ペアが前記類義語および前記関連語の何れであるかを判定する
ことを特徴とする請求項1に記載の文章解析方法。 - 前記特定ステップにおいて、前記第二テキストの全パターンの部分領域のうち、前記第一テキストとの間で、前記類義語に対応する前記類似度に基づく確信度が最大となる部分領域を特定し、特定した部分領域を所定範囲だけ拡大して前記関連語適用可能領域を生成する
ことを特徴とする請求項1に記載の文章解析方法。 - 前記特定ステップにおいて、前記確信度は、さらに、前記第二テキストの全パターンの部分領域と、前記第一テキストとの間で、テキストの内容に関連するカテゴリを示すカテゴリ情報が一致するか否かの情報に基づく
ことを特徴とする請求項3に記載の文章解析方法。 - 前記特定ステップにおいて、前記確信度は、さらに、前記各構成単位ペアが一致するか否かの情報に基づく
ことを特徴とする請求項3に記載の文章解析方法。 - 前記対応関係判定ステップにおいて、前記関連語適用可能領域の全パターンの部分領域のうち、前記第一テキストとの間で、前記関連語に対応する前記類似度に基づく確信度が最大となる部分領域を特定し、特定した部分領域と前記第一テキストとの対応関係を判定する
ことを特徴とする請求項1に記載の文章解析方法。 - 前記対応関係判定ステップにおいて、前記確信度は、さらに、前記第二テキストの全パターンの部分領域と、前記第一テキストとの間で、テキストの内容に関連するカテゴリを示すカテゴリ情報が一致するか否かの情報に基づく
ことを特徴とする請求項6に記載の文章解析方法。 - 前記対応関係判定ステップにおいて、前記確信度は、さらに、前記各構成単位ペアが一致するか否かの情報に基づく
ことを特徴とする請求項6に記載の文章解析方法。 - 前記対応関係判定ステップによる対応関係の判定結果に基づいて、前記第一テキストと前記第二テキストとの対応箇所を対応箇所可視化部に出力して可視化する可視化ステップ
をさらに含んだことを特徴とする請求項1に記載の文章解析方法。 - コンピュータを、文章解析を行う文章解析システムとして機能させるための文章解析プログラムであって、
前記コンピュータを、
第一テキストおよび第二テキストのそれぞれから、要素分解処理を実行して得られるテキストの構成単位を生成し、前記第一テキストの構成単位と、前記第二テキストの構成単位との各構成単位ペアの類似度を計測する計測部、
前記各構成単位ペアが、前記類似度が所定値以上である類義語、および、前記類似度が前記所定値未満である関連語の何れであるかを判定する類義語関連語判定部、
前記類義語関連語判定部によって判定された類義語をもとに、前記第二テキストから前記関連語を適用する関連語適用可能領域を特定する特定部、
前記類義語関連語判定部によって判定された関連語をもとに、前記関連語適用可能領域と前記第一テキストとの対応関係を判定する対応関係判定部
として機能させるための文章解析プログラム。 - 文章解析を行う文章解析システムであって、
第一テキストおよび第二テキストのそれぞれから、要素分解処理を実行して得られるテキストの構成単位を生成し、前記第一テキストの構成単位と、前記第二テキストの構成単位との各構成単位ペアの類似度を計測する計測部と、
前記各構成単位ペアが、前記類似度が所定値以上である類義語、および、前記類似度が前記所定値未満である関連語の何れであるかを判定する類義語関連語判定部と、
前記類義語関連語判定部によって判定された類義語をもとに、前記第二テキストから前記関連語を適用する関連語適用可能領域を特定する特定部と、
前記類義語関連語判定部によって判定された関連語をもとに、前記関連語適用可能領域と前記第一テキストとの対応関係を判定する対応関係判定部と
を備えたことを特徴とする文章解析システム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019106584A JP7324058B2 (ja) | 2019-06-06 | 2019-06-06 | 文章解析方法、文章解析プログラム、および文章解析システム |
US16/831,383 US20200387668A1 (en) | 2019-06-06 | 2020-03-26 | Text analysis method, non-transitory computer-readable recording medium for storing text analysis program, and text analysis system |
CN202010284172.1A CN112052661A (zh) | 2019-06-06 | 2020-04-13 | 文章解析方法、记录介质及文章解析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019106584A JP7324058B2 (ja) | 2019-06-06 | 2019-06-06 | 文章解析方法、文章解析プログラム、および文章解析システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020201607A true JP2020201607A (ja) | 2020-12-17 |
JP7324058B2 JP7324058B2 (ja) | 2023-08-09 |
Family
ID=73609153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019106584A Active JP7324058B2 (ja) | 2019-06-06 | 2019-06-06 | 文章解析方法、文章解析プログラム、および文章解析システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20200387668A1 (ja) |
JP (1) | JP7324058B2 (ja) |
CN (1) | CN112052661A (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7316165B2 (ja) * | 2019-09-20 | 2023-07-27 | 株式会社日立製作所 | 情報処理方法および情報処理装置 |
US11176198B2 (en) * | 2019-09-25 | 2021-11-16 | Open Text Holdings, Inc. | System and method for pre-indexing filtering and correction of documents in search systems |
US20230419034A1 (en) * | 2022-06-22 | 2023-12-28 | Optum Services (Ireland) Limited | Natural language processing machine learning frameworks trained using multi-task training routines |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07253987A (ja) * | 1994-03-16 | 1995-10-03 | Toshiba Corp | 文書検索システムと文書検索方法 |
JP2002169803A (ja) * | 2000-09-25 | 2002-06-14 | Fujitsu Ltd | 複数の文書を閲覧するための装置および方法 |
JP2005251038A (ja) * | 2004-03-05 | 2005-09-15 | Just Syst Corp | 文書検索装置、文書検索方法、および文書検索プログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005041063A1 (en) * | 2003-09-30 | 2005-05-06 | British Telecommunications Public Limited Company | Information retrieval |
US20070073745A1 (en) * | 2005-09-23 | 2007-03-29 | Applied Linguistics, Llc | Similarity metric for semantic profiling |
US20080114750A1 (en) * | 2006-11-14 | 2008-05-15 | Microsoft Corporation | Retrieval and ranking of items utilizing similarity |
US20140249799A1 (en) * | 2013-03-04 | 2014-09-04 | Microsoft Corporation | Relational similarity measurement |
RU2607975C2 (ru) * | 2014-03-31 | 2017-01-11 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Построение корпуса сравнимых документов на основе универсальной меры похожести |
US10095784B2 (en) * | 2015-05-29 | 2018-10-09 | BloomReach, Inc. | Synonym generation |
-
2019
- 2019-06-06 JP JP2019106584A patent/JP7324058B2/ja active Active
-
2020
- 2020-03-26 US US16/831,383 patent/US20200387668A1/en not_active Abandoned
- 2020-04-13 CN CN202010284172.1A patent/CN112052661A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07253987A (ja) * | 1994-03-16 | 1995-10-03 | Toshiba Corp | 文書検索システムと文書検索方法 |
JP2002169803A (ja) * | 2000-09-25 | 2002-06-14 | Fujitsu Ltd | 複数の文書を閲覧するための装置および方法 |
JP2005251038A (ja) * | 2004-03-05 | 2005-09-15 | Just Syst Corp | 文書検索装置、文書検索方法、および文書検索プログラム |
Also Published As
Publication number | Publication date |
---|---|
US20200387668A1 (en) | 2020-12-10 |
JP7324058B2 (ja) | 2023-08-09 |
CN112052661A (zh) | 2020-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107193973B (zh) | 语义解析信息的领域识别方法及装置、设备及可读介质 | |
US7562088B2 (en) | Structure extraction from unstructured documents | |
JP4920023B2 (ja) | オブジェクト間競合指標計算方法およびシステム | |
US10102191B2 (en) | Propagation of changes in master content to variant content | |
US20080162455A1 (en) | Determination of document similarity | |
JP2020201607A (ja) | 文章解析方法、文章解析プログラム、および文章解析システム | |
CN111158795A (zh) | 报表生成方法、装置、介质及电子设备 | |
CN108228567B (zh) | 用于提取组织机构的简称的方法和装置 | |
US20130054539A1 (en) | Database Record Repair | |
US10324965B2 (en) | Techniques for suggesting patterns in unstructured documents | |
CN109933803B (zh) | 一种成语信息展示方法、展示装置、电子设备及存储介质 | |
WO2014167647A1 (ja) | データ管理装置、データ管理方法及び非一時的な記録媒体 | |
CN112699645B (zh) | 语料标注方法、装置及设备 | |
WO2021249311A1 (zh) | 命名实体的识别方法、识别设备及电子设备 | |
US20230244552A1 (en) | Natural language processing of api specifications for automatic artifact generation | |
CN109191158A (zh) | 用户画像标签数据的处理方法及处理设备 | |
US9747274B2 (en) | String comparison results for character strings using frequency data | |
US20240152700A1 (en) | List-based entity name detection | |
WO2021174829A1 (zh) | 众包任务的抽检方法、装置、计算机设备及存储介质 | |
US9558462B2 (en) | Identifying and amalgamating conditional actions in business processes | |
KR101164849B1 (ko) | 소프트웨어 평가정보 제공방법, 기록매체, 및 평가정보 제공장치 | |
US20210110109A1 (en) | Automated Constraint Extraction and Testing | |
CN109062970A (zh) | 用户画像的生成方法、生成设备及计算机可读存储介质 | |
CN108694172B (zh) | 信息输出方法和装置 | |
US20210271637A1 (en) | Creating descriptors for business analytics applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230207 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230331 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230704 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230728 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7324058 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |