JP5391887B2 - 情報処理装置及び情報処理プログラム - Google Patents
情報処理装置及び情報処理プログラム Download PDFInfo
- Publication number
- JP5391887B2 JP5391887B2 JP2009164390A JP2009164390A JP5391887B2 JP 5391887 B2 JP5391887 B2 JP 5391887B2 JP 2009164390 A JP2009164390 A JP 2009164390A JP 2009164390 A JP2009164390 A JP 2009164390A JP 5391887 B2 JP5391887 B2 JP 5391887B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- sentence
- similar
- module
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
請求項1の発明は、文書を記憶する文書記憶手段と、対象とする文書から文を抽出する文抽出手段と、前記文抽出手段によって抽出された文の構文に基づいて、該文の集合を生成する文集合生成手段と、前記文集合生成手段によって生成された文の集合内の第1の文と類似する第2の文を前記文書記憶手段に記憶されている文書内の文から検索する類似文検索手段と、前記類似文検索手段によって検索された第2の文に基づいて、前記対象とする文書に関連する文書を前記文書記憶手段から検索する関連文書検索手段と、前記関連文書検索手段によって検索された文書に含まれる前記第2の文の数、該第2の文に対応する前記対象文書における前記第1の文の出現順序と前記関連文書検索手段によって検索された文書における該第2の文の出現順序の比較結果、又はこれらの組み合わせに基づいて、前記関連文書検索手段によって検索された文書を順序付けする順序付手段を具備することを特徴とする情報処理装置である。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、コンピュータ・プログラム、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能にほぼ一対一に対応しているが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。
近年、企業に対するコンプライアンス徹底の社会的要請を背景にして、厳密な文書管理のニーズが高まっている。例えば、RoHS(Restricting the use of Hazardous Substances、危険物質に関する制限)やREACH(Registration, Evaluation, Authorisation and Restriction of CHemicals、欧州化学品規制)といった製品中の含有物質の含有量に関する制限規則に適合していることを証明するための適合宣言書や、機密情報の機密レベルや開示範囲を示すために文書に付与する機密情報表示を正確に記述することが必要不可欠である。このために、例えば、新たに作成する適合宣言書の記述が、準拠すべきRoHSやREACH等の基準書(定義文書)や類似製品の適合宣言書等に適合しているか否かを確認するために、それらを参考情報として参照する必要が生じる。この場合に文書管理システムが用いられる。
以下、情報処理装置がこのような文書管理に用いられる場合を主に例示して説明する。
文書を受け付けるとは、例えば、ハードディスク(コンピュータに内蔵されているものの他に、ネットワークを介して接続されているもの等を含む)等に記憶されている文書を読み出すこと、スキャナ、カメラ等で読み込んだ画像を文字認識すること等が含まれる。
定義文書群310の文書としては「RoHS指令」、「REACH改訂」等の文書があり、サプライヤからの適合宣言書群320の文書としては「サプライヤからの部品aの適合宣言書」等の文書があり、設計仕様書群330の文書としては「○○プロダクトAの設計仕様」等の文書があり、また、文書受付モジュール110が受け付けて文書格納モジュール120に記憶される文書としては「○○プロダクトAのXX向け適合宣言書」等がある。
前述した適合宣言書や機密情報表示のようなコンプライアンスに関わる文書では、コンプライアンス項目に適合していることを示す複数の記述が並置的に記載されているという特徴を持つ。例えば、適合宣言書では、「六価クロムは、500ppm以下である。ポリ臭化ジフェニルエーテルは20ppm以下である。…」というような並置的な記述が続く。類似構文集合生成モジュール140は、適合宣言書や機密情報表示のある文書を対象とした場合、複数の事実や定義が並置的に記述される文の集合を生成する。
また、文の集合が複数できた場合には、集合に属する文の数が、予め設定された閾値T3よりも大きい集合のみを残し、他の集合は処理対象から外す。
例えば、具体的には、類似構文集合生成モジュール140から得られた同じ集合に属する各第1の文を対象として、文書格納モジュール120に記憶された各文書から文抽出モジュール130によって得られた文を対象に、それぞれの第1の文に類似する文を検索する。つまり、2つの文の類似度を算出し、その類似度が予め設定された閾値T4よりも大きい文を検索結果とする。類似構文集合生成モジュール140で複数の集合が得られた場合には、集合ごとにこの検索処理を実行する。
ただし、数値の単語については、「500」や「20」といった具体的な数値を用いるのではなく、「数値表現」として統一的に扱う。
(1)関連文書検索モジュール160によって検索された文書に含まれる類似文の数。これは、関連文書検索モジュール160によって検索された文書ごとに、類似文検索モジュール150によって検索された類似文がいくつあるかをカウントすることによって得られる。
(2)関連文書検索モジュール160によって検索された文書に含まれる類似文とその類似文に対応する第1の文の類似度。これは、関連文書検索モジュール160によって検索された文書ごとに、類似文検索モジュール150で算出した類似度を用いる。
(3)類似文に対応する対象文書における第1の文の出現順序と関連文書検索モジュール160によって検索された文書における類似文の出現順序の比較結果。これは、関連文書検索モジュール160によって検索された文書ごとに、その文書内での類似文の出現順序とその類似文に対応する第1の文の対象文書における出現順序を比較することによって得られる。なお、比較結果の値は、出現順序が同じ場合を高い値とし、逆順の場合を低い値とするような関数によって算出する。
(4)前述の(1)、(2)、(3)の2つ以上の組み合わせ
例えば、(1)の値、(2)の値、(3)の値のいずれか、又はこれらの値の組み合わせ(例えば、これらの値の和、各値に予め定めた重み係数を乗じた値の平均値等であってもよい)が大きい文書から順に並べる。
文ID欄902は、抽出した文を一意に識別する文ID(IDentification)を記憶する。
文欄904は、抽出した文を記憶する。
文書ID欄906は、その文を抽出した文書を一意に識別する文書IDを記憶する。
ステップS204では、文抽出モジュール130が、受け付けた文書内のテキストデータから文を抽出する。図4は、対象文書(適合宣言書)内の文の例を示す説明図であり、文402から文410の文を抽出した例である。図7は、対象文書(機密情報表示を含む文書)内の文の例を示す説明図であり、文702から文708の文を抽出した例である。つまり、句点又は改行記号のいずれか一方を発見するごとに文を抽出する。
文ID欄1002は、対象文書内の文を一意に識別する文IDを記憶する。
文欄1004は、抽出した文を記憶する。
グループ欄1006は、グループ分けした結果であるグループIDを記憶する。図10の例では、「A−005」と「A−007」の文は同じグループに属する。
例えば、図4に例示した文406である
「ポリ臭化ジフェニルエーテルの含有は、20ppm以下である。」
に類似する文として、
「ポリ臭化ジフェニルエーテルは10ppm以下の含有量である。」
「ポリ臭化ジフェニルエーテルの含有は50ppm以下の含有に抑えること。」
等の文が検索結果として得られる。つまり、これらの文は、文406内の「ポリ臭化ジフェニルエーテル」、「含有」、「『数値表現』ppm」、「以下」と同じ単語を含んでいるので、類似文として検索される。
類似文の検索結果を、例えば、類似度テーブル1100に記憶する。図11は、類似度テーブル1100のデータ構造例を示す説明図である。類似度テーブル1100は、対象文ID欄1102、類似文ID欄1104、文書ID欄1106、類似度欄1108を有している。
対象文ID欄1102は、対象文書内の文の文IDを記憶する。
類似文ID欄1104は、検索結果である類似文の文IDを記憶する。
文書ID欄1106は、その類似文が含まれている文書IDを記憶する。
類似度欄1108は、対象文と類似文との間における類似度を記憶する。
ステップS212では、関連文書ランキングモジュール170が、文書内の類似文の数等に基づき文書のランキングを決定する。例えば、図4に例示した文402、文406、文408のそれぞれの文と単語が類似しており、それらの文の出現順序が同じである、図5(文402、406、408に対応する文として文502、504、506)、図6(文402、406、408に対応する文として文602、604、606)に例示した文書が上位にランキングされる。また、図7に例示した文702から文708のそれぞれの文と単語が類似しており、それらの文の出現順序が同じである、図8(文702、704、706、708に対応する文として文802、806、810、814)に例示した文書が上位にランキングされる。
なお、図12に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図12に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えばASIC等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図12に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、情報家電、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
なお、前述の実施の形態内の各モジュールの処理内容として従来技術として説明した技術を採用してもよい。
また、前述の実施の形態の説明において、予め定められた値との比較において、「以上」、「以下」、「より大きい」、「より小さい(未満)」としたものは、その組み合わせに矛盾が生じない限り、それぞれ「より大きい」、「より小さい(未満)」、「以上」、「以下」としてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
120…文書格納モジュール
130…文抽出モジュール
140…類似構文集合生成モジュール
150…類似文検索モジュール
160…関連文書検索モジュール
170…関連文書ランキングモジュール
180…関連文書出力モジュール
Claims (3)
- 文書を記憶する文書記憶手段と、
対象とする文書から文を抽出する文抽出手段と、
前記文抽出手段によって抽出された文の構文に基づいて、該文の集合を生成する文集合生成手段と、
前記文集合生成手段によって生成された文の集合内の第1の文と類似する第2の文を前記文書記憶手段に記憶されている文書内の文から検索する類似文検索手段と、
前記類似文検索手段によって検索された第2の文に基づいて、前記対象とする文書に関連する文書を前記文書記憶手段から検索する関連文書検索手段と、
前記関連文書検索手段によって検索された文書に含まれる前記第2の文の数、該第2の文に対応する前記対象文書における前記第1の文の出現順序と前記関連文書検索手段によって検索された文書における該第2の文の出現順序の比較結果、又はこれらの組み合わせに基づいて、前記関連文書検索手段によって検索された文書を順序付けする順序付手段
を具備することを特徴とする情報処理装置。 - 前記順序付手段は、前記関連文書検索手段によって検索された文書と前記対象とする文書の類似度に基づいて、前記順序付けを行う
ことを特徴とする請求項1に記載の情報処理装置。 - コンピュータを、
文書を記憶する文書記憶手段と、
対象とする文書から文を抽出する文抽出手段と、
前記文抽出手段によって抽出された文の構文に基づいて、該文の集合を生成する文集合生成手段と、
前記文集合生成手段によって生成された文の集合内の第1の文と類似する第2の文を前記文書記憶手段に記憶されている文書内の文から検索する類似文検索手段と、
前記類似文検索手段によって検索された第2の文に基づいて、前記対象とする文書に関連する文書を前記文書記憶手段から検索する関連文書検索手段と、
前記関連文書検索手段によって検索された文書に含まれる前記第2の文の数、該第2の文に対応する前記対象文書における前記第1の文の出現順序と前記関連文書検索手段によって検索された文書における該第2の文の出現順序の比較結果、又はこれらの組み合わせに基づいて、前記関連文書検索手段によって検索された文書を順序付けする順序付手段
として機能させることを特徴とする情報処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009164390A JP5391887B2 (ja) | 2009-07-13 | 2009-07-13 | 情報処理装置及び情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009164390A JP5391887B2 (ja) | 2009-07-13 | 2009-07-13 | 情報処理装置及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011022630A JP2011022630A (ja) | 2011-02-03 |
JP5391887B2 true JP5391887B2 (ja) | 2014-01-15 |
Family
ID=43632681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009164390A Expired - Fee Related JP5391887B2 (ja) | 2009-07-13 | 2009-07-13 | 情報処理装置及び情報処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5391887B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5699789B2 (ja) * | 2011-05-10 | 2015-04-15 | ソニー株式会社 | 情報処理装置、情報処理方法、プログラム及び情報処理システム |
WO2016147624A1 (ja) * | 2015-03-13 | 2016-09-22 | 日本電気株式会社 | 検索システム、検索方法および検索プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3583631B2 (ja) * | 1998-12-03 | 2004-11-04 | 三菱電機株式会社 | 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2000242650A (ja) * | 1999-02-18 | 2000-09-08 | Mitsubishi Electric Corp | 類似文書検索方法、類似文書検索装置、および類似文書検索プログラムを記録したコンピュータ読み取り可能な記憶媒体 |
JP2006227914A (ja) * | 2005-02-17 | 2006-08-31 | Canon Inc | 情報検索装置、情報検索方法、プログラム、記憶媒体 |
JP2007279978A (ja) * | 2006-04-05 | 2007-10-25 | Hitachi Ltd | 文書検索装置及び文書検索方法 |
-
2009
- 2009-07-13 JP JP2009164390A patent/JP5391887B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011022630A (ja) | 2011-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109885692B (zh) | 知识数据存储方法、装置、计算机设备和存储介质 | |
JP6141305B2 (ja) | 画像検索 | |
US20200302114A1 (en) | Information extraction from open-ended schema-less tables | |
CA2777520C (en) | System and method for phrase identification | |
US10922346B2 (en) | Generating a summary based on readability | |
EP3401802A1 (en) | Webpage training method and device, and search intention identification method and device | |
US20170052945A1 (en) | Generation apparatus, generation method, and program | |
TWI536181B (zh) | 在多語文本中的語言識別 | |
WO2022087497A1 (en) | Multi-dimensional product information analysis, management, and application systems and methods | |
CN109145110B (zh) | 标签查询方法和装置 | |
US20100332484A1 (en) | Document information creation device, document registration system, computer-readable storage medium and document information creation method | |
CN110427488B (zh) | 文档的处理方法及装置 | |
Yerva et al. | It was easy, when apples and blackberries were only fruits | |
US20210295033A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP5391887B2 (ja) | 情報処理装置及び情報処理プログラム | |
US9672275B2 (en) | Recommendation apparatus, recommendation method, and storage medium | |
CN113591476A (zh) | 一种基于机器学习的数据标签推荐方法 | |
JP2011065255A (ja) | データ処理装置、データ名生成方法及びコンピュータプログラム | |
CN112487181B (zh) | 关键词确定方法和相关设备 | |
US20230177362A1 (en) | Risk assessment apparatus, risk assessment method, and program | |
JP5510221B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2008090396A (ja) | 電子文書検索方法、電子文書検索装置及びプログラム | |
JP6201779B2 (ja) | 情報処理装置及び情報処理プログラム | |
KR100312430B1 (ko) | 인터넷 쇼핑몰 상품정보 학습 시스템 및 그 방법 | |
US20180307669A1 (en) | Information processing apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120620 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130614 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130618 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130814 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130917 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130930 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5391887 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |