JP6722565B2 - 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム - Google Patents
類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム Download PDFInfo
- Publication number
- JP6722565B2 JP6722565B2 JP2016216404A JP2016216404A JP6722565B2 JP 6722565 B2 JP6722565 B2 JP 6722565B2 JP 2016216404 A JP2016216404 A JP 2016216404A JP 2016216404 A JP2016216404 A JP 2016216404A JP 6722565 B2 JP6722565 B2 JP 6722565B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- similarity
- item
- feature amount
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
また、文書を構成する項目単位で類似度を算出し、少なくとも一部が類似する文書を抽出する手法が提案されている(例えば、特許文献1参照)。
しかしながら、特許文献1の手法では、一部の作業項目のみが類似する文書を抽出できるものの、これらの作業項目の順序性は考慮されないため、複数の作業項目からなる類似文書の抽出手法としては高い精度を期待できなかった。
図1は、本実施形態に係る類似文書抽出装置1の機能構成を示す図である。
類似文書抽出装置1は、サーバ装置又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス又は通信デバイス等を備える。
ここで、分類ラベルは、予め設定された複数の種別を示す符号であってよい。あるいは、例えば、クラスタリング処理の結果であるグループに付与される符号であってもよい。
キー文書は、文書データベース21の検索対象文書と同様の記載内容であり、文書構成データベース23の文書構成データに則り作成されているものとする。
このとき、類似度算出部14は、特徴量における分類ラベルが連続して一致する数が多いほど、類似度を高く算出する。また、類似度算出部14は、分類ラベルの確度により類似度を調整し、複数の分類ラベルのそれぞれに変更した場合の類似度をさらに算出する。
さらに、類似度算出部14は、検索対象文書の組み合わせに対して、キー文書との類似度を算出してもよい。
このとき、抽出部15は、複数の分類ラベルのうち、確度が最大の項目情報から変更した作業項目を明示する出力を行う。
キー文書における各作業項目の分類ラベルが「27,64,1,2,3,4,5,6,7,8,139,241」のように順に付与された場合、検索対象文書Aの分類ラベルとは、「1,2,3」及び「5,6」が一致し、検索対象文書Bの分類ラベルとは、「1,2,3」及び「5,6,7,8」が一致している。この場合、より長い分類ラベルの列が一致している検索対象文書Bの類似度が高く算出される。
このとき、確度が最大の分類ラベル「44」が「4」に変更されたため、この作業項目が強調表示される。
まず、類似文書抽出装置1は、文書データベース21に蓄積された検索対象文書のそれぞれを、文書構成データベース23の文書構成データに基づいて分割し、複数の作業項目1〜Xを切り出す。
続いて、類似文書抽出装置1は、切り出した複数の作業項目それぞれの分類ラベル(項目情報)と実施順序(順序情報)とを計算し、特徴量データベース22に格納する。
続いて、類似文書抽出装置1は、切り出した複数の作業項目それぞれの分類ラベル(項目情報)と実施順序(順序情報)とを計算する。
ステップS1において、制御部10(分割部11)は、文書構成データに基づいて、検索対象文書を作業項目の単位に分割する。
ステップS11において、制御部10(入力部13)は、検索キーとなるキー文書の入力を受け付ける。
例えば、作業全体の内容が異なる、すなわち作業目的、実施部門、実施時期等が異なる作業について記載した文書についても、一部の作業手順が類似する場合に、これらを抽出することが可能となる。このとき、作業に関する類似性は、個々の作業項目のみならず、その順序性が重要であり、類似文書抽出装置1は、順序情報を含む特徴量により、精度の高い類似文書の抽出が可能である。
また、類似文書抽出装置1は、複数の分類ラベルを選択でき、それぞれについて類似度を算出するので、作業項目の分類の誤りによる抽出漏れを抑制し、精度よく類似文書を抽出できる。
さらに、類似文書抽出装置1は、確度が最大の分類ラベルから変更した場合に、この作業項目を明示することにより、ユーザに対して作業項目の分類の誤りを示唆でき、利便性が向上する。
例えば、図6のように、「1,2,3,5,6,7,8」という順序情報を持つキー文書に対して、「1,2,3,4,5,6,7,8」という順序情報を持つ検索対象文書が類似事例として抽出されてもよい。
この場合、キー文書にない分類ラベル「4」の作業項目が明示されることにより、ユーザに対して作業項目の記載漏れの可能性を示唆できる。
10 制御部
11 分割部
12 特徴量算出部
13 入力部
14 類似度算出部
15 抽出部
20 記憶部
21 文書データベース
22 特徴量データベース
23 文書構成データベース
Claims (7)
- 検索キーとなるキー文書の入力を受け付ける入力部と、
文書構成情報に基づいて、文書を複数の項目に分割する分割部と、
前記項目に含まれる単語に基づいて当該項目を分類した項目情報、及び当該項目の順序情報を含む特徴量を算出する特徴量算出部と、
複数の対象文書それぞれの前記特徴量と前記キー文書の前記特徴量との類似度を算出する類似度算出部と、
前記複数の対象文書から、前記類似度の降順に文書を抽出する抽出部と、を備え、
前記特徴量算出部は、前記項目情報の確度を算出し、
前記類似度算出部は、前記確度により前記類似度を調整する類似文書抽出装置。 - 前記類似度算出部は、前記項目情報が連続して一致する数が多いほど、前記類似度を高く算出する請求項1に記載の類似文書抽出装置。
- 前記類似度算出部は、さらに、前記対象文書の組み合わせに対して、前記キー文書との組み合わせ類似度を算出し、
前記抽出部は、前記組み合わせ類似度の降順に前記組み合わせを抽出する請求項1又は請求項2に記載の類似文書抽出装置。 - 前記特徴量算出部は、前記項目毎に複数の項目情報及び確度を算出し、
前記類似度算出部は、前記項目情報を変更した場合の類似度をさらに算出する請求項1から請求項3のいずれかに記載の類似文書抽出装置。 - 前記抽出部は、前記複数の項目情報のうち、前記確度が最大の項目情報から変更した前記項目を示す出力を行う請求項4に記載の類似文書抽出装置。
- 検索キーとなるキー文書の入力を受け付ける入力ステップと、
文書構成情報に基づいて、文書を複数の項目に分割する分割ステップと、
前記項目に含まれる単語に基づいて当該項目を分類した項目情報、及び当該項目の順序情報を含む特徴量を算出する特徴量算出ステップと、
複数の対象文書それぞれの前記特徴量と前記キー文書の前記特徴量との類似度を算出する類似度算出ステップと、
前記複数の対象文書から、前記類似度の降順に文書を抽出する抽出ステップと、をコンピュータが実行し、
前記特徴量算出ステップにおいて、前記項目情報の確度を算出し、
前記類似度算出ステップにおいて、前記確度により前記類似度を調整する類似文書抽出方法。 - 検索キーとなるキー文書の入力を受け付ける入力ステップと、
文書構成情報に基づいて、文書を複数の項目に分割する分割ステップと、
前記項目に含まれる単語に基づいて当該項目を分類した項目情報、及び当該項目の順序情報を含む特徴量を算出する特徴量算出ステップと、
複数の対象文書それぞれの前記特徴量と前記キー文書の前記特徴量との類似度を算出する類似度算出ステップと、
前記複数の対象文書から、前記類似度の降順に文書を抽出する抽出ステップと、をコンピュータに実行させ、
前記特徴量算出ステップにおいて、前記項目情報の確度を算出させ、
前記類似度算出ステップにおいて、前記確度により前記類似度を調整させるための類似文書抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016216404A JP6722565B2 (ja) | 2016-11-04 | 2016-11-04 | 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016216404A JP6722565B2 (ja) | 2016-11-04 | 2016-11-04 | 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018073354A JP2018073354A (ja) | 2018-05-10 |
JP6722565B2 true JP6722565B2 (ja) | 2020-07-15 |
Family
ID=62115263
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016216404A Active JP6722565B2 (ja) | 2016-11-04 | 2016-11-04 | 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6722565B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6879983B2 (ja) * | 2018-09-11 | 2021-06-02 | Kddi株式会社 | 情報抽出装置、情報抽出方法及び情報抽出プログラム |
JP7445891B2 (ja) | 2020-06-12 | 2024-03-08 | パナソニックIpマネジメント株式会社 | 文書分類方法、文書分類装置及びプログラム |
WO2022196058A1 (ja) * | 2021-03-16 | 2022-09-22 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、およびプログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002230021A (ja) * | 2001-01-30 | 2002-08-16 | Canon Inc | 情報検索装置及び情報検索方法並びに記憶媒体 |
JP2002222208A (ja) * | 2001-06-19 | 2002-08-09 | Hitachi Ltd | 文書検索システム、文書検索方法及び検索サーバ |
JP2009223409A (ja) * | 2008-03-13 | 2009-10-01 | Fuji Xerox Co Ltd | 文書検索システムおよびプログラム |
JP5894273B2 (ja) * | 2012-06-27 | 2016-03-23 | 株式会社日立製作所 | 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム |
JP6522446B2 (ja) * | 2014-12-26 | 2019-05-29 | Kddi株式会社 | ラベル付与装置、方法およびプログラム |
-
2016
- 2016-11-04 JP JP2016216404A patent/JP6722565B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018073354A (ja) | 2018-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Pattern based sequence classification | |
US20210011832A1 (en) | Log analysis system, log analysis method, and storage medium | |
US9898464B2 (en) | Information extraction supporting apparatus and method | |
JP6007784B2 (ja) | 文書分類装置及びプログラム | |
CN106033416A (zh) | 一种字符串处理方法及装置 | |
Ismi et al. | K-means clustering based filter feature selection on high dimensional data | |
JP6722565B2 (ja) | 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム | |
EP2631815A1 (en) | Method and device for ordering search results, method and device for providing information | |
US20210349862A1 (en) | Data analysis system and data analysis method | |
JP4160548B2 (ja) | 文書要約作成システム、方法、及びプログラム | |
KR101379128B1 (ko) | 사전 생성 장치, 사전 생성 방법 및 사전 생성 프로그램을 기억하는 컴퓨터 판독 가능 기록 매체 | |
WO2008062822A1 (fr) | Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte | |
JP5439235B2 (ja) | 文書分類方法、文書分類装置、およびプログラム | |
JP2021039488A (ja) | 辞書作成装置及び辞書作成方法 | |
JP2009048598A (ja) | 文書情報表示システム | |
US20190294637A1 (en) | Similar data search device, similar data search method, and recording medium | |
CN114816518A (zh) | 基于simhash的源代码中开源成分筛选识别方法及系统 | |
JP5162215B2 (ja) | データ処理装置、データ処理方法、および、プログラム | |
CN113010573A (zh) | 一种关联关系提取方法、装置及电子设备 | |
JP6660333B2 (ja) | 情報抽出装置、情報抽出方法及び情報抽出プログラム | |
JP5824429B2 (ja) | スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム | |
JP2016040707A (ja) | ソフトウェア検証プログラム、ソフトウェア検証方法及びソフトウェア検証装置 | |
JP6664306B2 (ja) | 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム | |
JP2017004218A (ja) | 文書を処理する情報処理装置、情報処理方法、およびプログラム | |
CN111639056B (zh) | 保存文件的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191001 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191029 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200114 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200602 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200622 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6722565 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |