JP5815911B1 - 文書分析システム、文書分析システムの制御方法、および、文書分析システムの制御プログラム - Google Patents
文書分析システム、文書分析システムの制御方法、および、文書分析システムの制御プログラム Download PDFInfo
- Publication number
- JP5815911B1 JP5815911B1 JP2015510547A JP2015510547A JP5815911B1 JP 5815911 B1 JP5815911 B1 JP 5815911B1 JP 2015510547 A JP2015510547 A JP 2015510547A JP 2015510547 A JP2015510547 A JP 2015510547A JP 5815911 B1 JP5815911 B1 JP 5815911B1
- Authority
- JP
- Japan
- Prior art keywords
- document
- keyword
- unit
- analysis system
- predetermined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 125
- 238000000034 method Methods 0.000 title claims description 73
- 239000013598 vector Substances 0.000 claims abstract description 73
- 238000004364 calculation method Methods 0.000 claims abstract description 41
- 239000011159 matrix material Substances 0.000 claims abstract description 15
- 230000008859 change Effects 0.000 claims description 29
- 238000000605 extraction Methods 0.000 claims description 18
- 230000009471 action Effects 0.000 claims description 12
- 230000002123 temporal effect Effects 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 47
- 238000011835 investigation Methods 0.000 description 39
- 238000012545 processing Methods 0.000 description 27
- 238000011156 evaluation Methods 0.000 description 24
- 230000006870 function Effects 0.000 description 16
- 239000000284 extract Substances 0.000 description 12
- 238000004891 communication Methods 0.000 description 11
- 238000007726 management method Methods 0.000 description 9
- 230000008520 organization Effects 0.000 description 9
- 239000000463 material Substances 0.000 description 8
- 238000007689 inspection Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 238000002360 preparation method Methods 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000275 quality assurance Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
図1〜図2に基づいて、本発明の第1の実施の形態(実施形態1)を説明する。
図1は、本発明の第1の実施の形態に係る文書分析システム100の要部構成を示すブロック図である。文書分析システム100は、文書を分析するシステム(文書分析システム)である。なお、上記文書分析システム100は、以下で説明する処理を実行可能な機器でありさえすればよく、任意のコンピュータを用いて実現され得る。
図2は、文書分析システム100が実行する処理の一例を示すフローチャートである。なお、以下の説明において、カッコ書きの「〜ステップ」は、文書分析システム100の制御方法(文書分析システムの制御方法)に含まれる各ステップを表す。
図3〜図18に基づいて、本発明の第2の実施の形態(実施形態2)を説明する。本実施の形態では、実施形態1に追加される構成や、実施形態1の構成とは異なる構成のみについて説明する。すなわち、実施形態1において記載された構成は、実施形態2にもすべて含まれ得る。また、実施形態1において記載された用語の定義は、実施形態2においても同じである。
図3は、本発明の実施の形態2に係る文書分析システム101の要部構成を示すブロック図である。文書分析システム101は、所定のコンピュータまたはサーバに記録された情報を取得し、当該取得された情報に含まれる、複数の文書から構成される文書情報を分析するシステムである。
「分別符号」は、文書を分類するために用いられる識別子であって、文書を訴訟に利用することが容易となるように、当該訴訟との関連度を示す識別子である。例えば、訴訟において文書情報を証拠として利用する場合、証拠の種類に応じて付与されてよい。
図4は、文書分析システム101が実行する処理の一例を示すフローチャートである。なお、図2に示されたフローは、図4に示されるフローから独立した処理として実行されてもよいし、図4に示されるフローの任意の箇所に内包される処理として実行されてもよい。
第1段階におけるキーワードデータベース104の詳細な処理フローを図8を用いて説明する。
第2段階における第1自動分別部201の詳細な処理フローを、図10を用いて説明する。本発明の実施形態において、第2段階では、第1自動分別部201によって、分別符号「重要」を文書に付与する処理を行う。
第3段階における第2自動分別部301の詳細な処理フローを、図11を用いて説明する。
第4段階では、図12に示すように、第3段階までの処理において、分別符号が付与されなかった文書情報から抽出した一定の割合の文書情報に対して、レビュワーからの分別符号の付与を受け付け、当該文書情報に受け付けた分別符号を付与する。次に、図13に示すように、レビュワーから受け付けた分別符号を付与された文書情報を解析し、その解析結果に基づいて、分別符号が付与されていない文書情報に分別符号を付与する。なお、本発明の実施形態においては、該文書情報に対して、第4段階では、例えば、「重要」、「製品A」及び「製品B」という分別符号を付与する処理を行う。第4段階について、更に以下に記載する。
第5段階における品質検査部501の詳細な処理フローを図17を用いて説明する。品質検査部501では、分別符号受付付与部131が、S411で受け付けた文書に対して、文書解析部118がS424で解析した傾向情報に基づいて、付与されるべき分別符号を決定する(S511)。
例えば、カルテル案件であれば、
1.競合の担当者がカルテルに関連する意思疎通(価格の調整)を、いつ・どのように取ったか?
2.関係者はどの組織の誰か?
がポイントになる。
1.侵害の対象となっている技術と内容が同じか?
2.誰が、いつ、どのような意図をもって(もたずに)侵害したか、もしくはしていないか?
といったことがポイントになる。
文書分析システム100および文書分析システム101の制御ブロック(特に、制御部10)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、文書分析システム100、101は、各機能を実現するソフトウェアであるプログラム(文書分析システム100、101の制御プログラム)の命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、当該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。
Claims (8)
- 文書を分析する文書分析システムであって、
前記文書に含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトルを、当該センテンスごとに生成する生成部と、
前記生成部によって生成されたキーワードベクトルを、前記所定のキーワードと、当該所定のキーワードとは異なる他のキーワードとの相関を示す相関マトリクスにそれぞれ乗じることによって、前記センテンスごとに相関ベクトルを得る乗算部と、
前記乗算部によって得られた全ての相関ベクトルについて合算した値と前記所定のキーワードに対する重みを示す重みベクトルとの内積に基づいて、前記文書と所定の事件との関連度を示す分別符号が、当該文書と結びつく強さを示すスコアを算出する算出部とを備えたことを特徴とする文書分析システム。 - 前記文書において、前記所定のキーワードが最も多く含まれることを示す前記キーワードベクトルに対応するセンテンスを抽出する抽出部をさらに備えたことを特徴とする請求項1に記載の文書分析システム。
- 前記文書において、前記所定のキーワードが含まれることを示す前記キーワードベクトルに対応するセンテンスを列挙することにより、当該文書の要約を生成する要約部をさらに備えたことを特徴とする請求項1又は2に記載の文書分析システム。
- 前記所定の事件の原因となる所定の行為を、当該所定の行為の進展に応じて分類するフェーズを、前記算出部によって算出されたスコアに基づいて特定する特定部をさらに備えたことを特徴とする請求項1から3のいずれか1項に記載の文書分析システム。
- 前記フェーズの時間的な遷移に基づいて、前記特定部によって特定されたフェーズの変化を推定する変化推定部をさらに備えたことを特徴とする請求項4に記載の文書分析システム。
- 前記算出部によって算出されたスコアに基づいて、前記文書に分別符号を付与する符号付与部をさらに備えたことを特徴とする請求項1から5のいずれか1項に記載の文書分析システム。
- 文書を分析する文書分析システムの制御方法であって、
前記文書に含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトルを、当該センテンスごとに生成する生成ステップと、
前記生成ステップにおいて生成したキーワードベクトルを、前記所定のキーワードと、当該所定のキーワードとは異なる他のキーワードとの相関を示す相関マトリクスにそれぞれ乗じることによって、前記センテンスごとに相関ベクトルを得る乗算ステップと、
前記乗算ステップにおいて得た全ての相関ベクトルについて合算した値と前記所定のキーワードに対する重みを示す重みベクトルとの内積に基づいて、前記文書と所定の事件との関連度を示す分別符号が、当該文書と結びつく強さを示すスコアを算出する算出ステップとを含む、コンピュータが実行する文書分析システムの制御方法。 - 文書を分析する文書分析システムの制御プログラムであって、コンピュータに、
前記文書に含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトルを、当該センテンスごとに生成する生成機能と、
前記生成機能によって生成されたキーワードベクトルを、前記所定のキーワードと、当該所定のキーワードとは異なる他のキーワードとの相関を示す相関マトリクスにそれぞれ乗じることによって、前記センテンスごとに相関ベクトルを得る乗算機能と、
前記乗算機能によって得られた全ての相関ベクトルについて合算した値と前記所定のキーワードに対する重みを示す重みベクトルとの内積に基づいて、前記文書と所定の事件との関連度を示す分別符号が、当該文書と結びつく強さを示すスコアを算出する算出機能とを実現させることを特徴とする文書分析システムの制御プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/062743 WO2015173894A1 (ja) | 2014-05-13 | 2014-05-13 | 文書分析システム、文書分析システムの制御方法、および、文書分析システムの制御プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5815911B1 true JP5815911B1 (ja) | 2015-11-17 |
JPWO2015173894A1 JPWO2015173894A1 (ja) | 2017-04-20 |
Family
ID=54479466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015510547A Expired - Fee Related JP5815911B1 (ja) | 2014-05-13 | 2014-05-13 | 文書分析システム、文書分析システムの制御方法、および、文書分析システムの制御プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5815911B1 (ja) |
WO (1) | WO2015173894A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102615420B1 (ko) * | 2022-11-16 | 2023-12-19 | 에이치엠컴퍼니 주식회사 | 인공지능 기반의 법률 문서에 대한 자동 분석 장치 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003016106A (ja) * | 2001-06-29 | 2003-01-17 | Fuji Xerox Co Ltd | 関連度値算出装置 |
JP2009098811A (ja) * | 2007-10-15 | 2009-05-07 | Toshiba Corp | 文書分類装置およびプログラム |
WO2013129548A1 (ja) * | 2012-02-29 | 2013-09-06 | 株式会社Ubic | 文書分別システム及び文書分別方法並びに文書分別プログラム |
WO2014057965A1 (ja) * | 2012-10-09 | 2014-04-17 | 株式会社Ubic | フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム |
-
2014
- 2014-05-13 JP JP2015510547A patent/JP5815911B1/ja not_active Expired - Fee Related
- 2014-05-13 WO PCT/JP2014/062743 patent/WO2015173894A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003016106A (ja) * | 2001-06-29 | 2003-01-17 | Fuji Xerox Co Ltd | 関連度値算出装置 |
JP2009098811A (ja) * | 2007-10-15 | 2009-05-07 | Toshiba Corp | 文書分類装置およびプログラム |
WO2013129548A1 (ja) * | 2012-02-29 | 2013-09-06 | 株式会社Ubic | 文書分別システム及び文書分別方法並びに文書分別プログラム |
WO2014057965A1 (ja) * | 2012-10-09 | 2014-04-17 | 株式会社Ubic | フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム |
Non-Patent Citations (1)
Title |
---|
JPN6015013100; 楠村 幸貴,水口 弘紀,久寿居 大: '2次元クラスタリングに基づく高頻度語の検索手法' 第1回データ工学と情報マネジメントに関するフォーラム-DEIMフォーラム-論文集 [online] [検索日2015.3.24],インターネット, 20090509, 電子情報通信学会データ工学研究専門委員会 * |
Also Published As
Publication number | Publication date |
---|---|
WO2015173894A1 (ja) | 2015-11-19 |
JPWO2015173894A1 (ja) | 2017-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5627820B1 (ja) | 文書分析システム及び文書分析方法並びに文書分析プログラム | |
JP5627750B1 (ja) | 文書分析システム及び文書分析方法並びに文書分析プログラム | |
JP5596213B1 (ja) | 文書分析システム及び文書分析方法並びに文書分析プログラム | |
WO2014057963A1 (ja) | フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム | |
JP5683749B1 (ja) | 文書分析システム、文書分析方法、および、文書分析プログラム | |
JP5986687B2 (ja) | データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体 | |
JP5622969B1 (ja) | 文書分析システム、文書分析方法、および、文書分析プログラム | |
WO2015118619A1 (ja) | 文書分析システム及び文書分析方法並びに文書分析プログラム | |
JP5815911B1 (ja) | 文書分析システム、文書分析システムの制御方法、および、文書分析システムの制御プログラム | |
JP5669904B1 (ja) | 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム | |
KR101658890B1 (ko) | 온라인 특허 평가 방법 | |
JP5851007B2 (ja) | 文書分析システム及び文書分析方法並びに文書分析プログラム | |
WO2015145524A1 (ja) | 文書分析システム、文書分析方法、および、文書分析プログラム | |
JP2015056185A (ja) | 文書分析システム及び文書分析方法並びに文書分析プログラム | |
JP5829768B2 (ja) | 電子メール分析システム、電子メール分析方法、および、電子メール分析プログラム | |
KR20150015424A (ko) | 온라인 특허 평가 방법 | |
JP5990562B2 (ja) | 事前情報を提供する文書調査システム、文書調査方法、及び文書調査プログラム | |
JP5745676B1 (ja) | 文書分析システム、文書分析方法、および、文書分析プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150812 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150908 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150924 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5815911 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D03 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D04 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D04 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |