JP4872504B2 - 分類情報管理装置、分類情報管理システムおよび分類情報管理プログラム - Google Patents

分類情報管理装置、分類情報管理システムおよび分類情報管理プログラム Download PDF

Info

Publication number
JP4872504B2
JP4872504B2 JP2006197133A JP2006197133A JP4872504B2 JP 4872504 B2 JP4872504 B2 JP 4872504B2 JP 2006197133 A JP2006197133 A JP 2006197133A JP 2006197133 A JP2006197133 A JP 2006197133A JP 4872504 B2 JP4872504 B2 JP 4872504B2
Authority
JP
Japan
Prior art keywords
expression
information
code
classification information
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006197133A
Other languages
English (en)
Other versions
JP2008027057A (ja
Inventor
千登 林
昌一 舘野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2006197133A priority Critical patent/JP4872504B2/ja
Publication of JP2008027057A publication Critical patent/JP2008027057A/ja
Application granted granted Critical
Publication of JP4872504B2 publication Critical patent/JP4872504B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、分類情報管理装置、分類情報管理システムおよび分類情報管理プログラムに関する。
IT技術の普及や市場のグローバル化など様々な変化により、市場や技術・社会環境により速く適応することは企業活動において重要な位置を占めるようになった。このため製品のユーザからの声に加え、潜在顧客等から様々な意見や評判などの情報を集めることが広く行われるようになり、アンケートやインタビューの実施、電子コミュニティやブログに投稿されているテキストの収集解析、営業活動日報からの情報抽出・分析などが行われている。これらの集められる情報はその大部分は人間の話すことばを記録したテキスト情報であり、集められる大量のテキスト情報から望みの情報を分析・抽出することを実現するためにはテキストマイニングなど技術による支援が重要な役割を果たすようになってきた。
収集したテキスト情報を分類し、意味を取り出すにはテキスト情報に分類のためのコード情報を人手で付与することが行われてきた。人手でのコード情報の付与は単位時間当たりで可能な作業量に限界があり、大量のテキスト情報に対してコード情報を付与するためには非常に長い時間をかけるか多くの人に作業を分けるか、あるいはその両方を行う必要がある。このようにして大量のテキスト情報を処理したとしても、時間経過や人による解釈の違いにより付与されるコード情報にブレが生じて精度が落ちることがある。
これに対して、意味が取れる表現を抽出し、その表現が意味する事柄に応じてコード情報を付与するという技術も知られている。例えば、特許文献1は、テキスト情報の意味解析を行い、解析結果の構造を分類ルールに照らして分類を行う技術を開示している。特開文献2は、テキスト情報を意味解析し、意味解析結果の部分構造を調べて情報の抽出分類を行い、これを整列して提示する技術を開示している。また、非特許文献1は、係り受けの関係に対して職業を表すコード情報を付与する技術を開示している。
これらの技術は、人間が解釈して意味を見出すことができる表現を選定し、それらの表現に対してコード情報を機械的に与えるため、ブレが少なく大量のテキスト情報を処理できるうえ、コードが付与された理由の説明が明示的に得られるという長所を持っていた。
特開2006−65508 特開2006−79481 高橋和子、「格フレームによる自由回答のコーディング自動化システム」情報処理学会 研究報告 自然言語処理 127-12 pp87-94,1998
しかしながら、従来のコードを付与する技術は、コード情報の付与規則の網羅性や更新管理の面に課題があった。一旦、コード情報の付与規則を用意したとしても、世の中で使われる言葉には常に新しい表現が加えられていくし、使い方が変わっていくものも出てくる。このため、抽出規則は、常に新しい言葉や表現に対応するための更新が必要となる。しかし、抽出規則の規模が大きくなればなるほど人手で正しく更新管理していくことは難しくなってくる。
本発明は、上記従来の課題を解決し、分類情報の付与規則のブレ等の不整合の修正や分類情報の付与規則の再利用時の適合性の管理を支援する分類情報管理装置を提供することを目的とする。
請求項1の分類情報管理装置は、構文解析及び意味解析のいずれかの解析結果から得られる構造のうち特定の関係を有する第1の表現構造及び第2の表現構造に対応する表現を、入力された文書情報から抽出する抽出手段と、前記抽出された表現と当該表現に付与された分類情報を記憶する記憶手段と、前記記憶手段に記憶された表現および分類情報を参照し、前記第1の表現構造に対応する表現と第2の表現構造に対応する表現を抽出し、抽出された第1の表現構造に対応する表現、第2の表現構造に対応する表現および対応する分類情報を含む複数の表現組合せ情報を作成する作成手段と、前記複数の表現組合せ情報のうち異なる表現組合せ情報の分類情報を評価する評価手段と、前記評価結果を含む情報を表示する表示手段とを有する。
請求項2に係る評価手段は、前記複数の表現組合せ情報から一定の基準を満足する少なくとも1組の表現組合せ情報を選択する第1の選択手段を含み、かつ当該選択された1組の表現組合せ情報を比較する。
請求項3に係る一定の基準は、比較される組の表現組合せ情報の第1または第2の表現構造の表現の一致数または一致割合、あるいは分類情報の一致数または一致割合のいずれか1つを含む。
請求項4に係る一定の基準は、比較される組の表現組合せ情報に、未定義または対象外の特別の分類情報が付与されている場合に、当該特別の分類情報を前記一致割合から除外する。請求項5に係る表示手段は、選択された少なくとも1組の表現組合せ情報に含まれる第1および第2の表現構造に対応する表現を、分類情報が一致、不一致あるいは未定義の少なくとも1つの関係とともに表示する。
請求項6に係る分類情報管理装置はさらに、前記表示手段によって表示された評価結果に応じて分類情報の修正または確認を入力する入力手段を含む。
請求項7に係る分類情報管理装置はさらに、前記作成手段により作成された表現組合せ情報に基づき前記記憶手段から分類情報の集合を選択する第2の選択手段を含み、前記表示手段は、第2の選択手段により選択された分類情報の集合を表示する。請求項8に係る分類情報管理装置はさらに、前記作成手段により作成された表現組合せ情報に基づき入力された文書情報から抽出された表現に分類情報を付与する付与手段を含む。
請求項9に係る付与手段は、入力された文書情報に含まれる第1または第2の表現構造に対応する表現と前記複数の組合せ情報に含まれる第1または第2の表現構造に対応する表現とを比較し、当該比較結果から特定の表現組合せ情報を選択する第3の選択手段を有し、前記付与手段は、当該選択された組合せ情報に基づき分類情報を付与する。請求項10に係る第3の選択手段は、表現の出現頻度を比較し、特定の表現組合せ情報を選択する。
請求項11に係る分類情報管理装置はさらに、第1または第2の表現構造に対応する表現の抽出を指示する指示手段を含み、前記作成手段は、前記指示手段により指示された表現に基づき表現組合せ情報を作成する。請求項12に係る指示手段は、第1の表現構造と第2の表現構造を対とする第1の表現構造組と、第1の表現構造組と反対の第2の表現構造と第1の表現構造を対とする第2の表現構造組を指定し、前記作成手段は、前記第1および第2の表現構造組に基づき表現組合せ情報を作成する。請求項13に係る第1の表現構造と第2の表現構造は、係り受け関係にある係り語と受け語、または受け語と係り後を含む。請求項14に係る第1の表現構造と第2の表現構造は、意味構文解析して得られた主語、述語、目的語の中から選択される。
請求項15に係る分類情報管理システムは、構文解析及び意味解析のいずれかの解析結果から得られる構造のうち特定の関係を有する第1の表現構造及び第2の表現構造に対応する表現を、入力された文書情報から抽出する抽出手段と、前記抽出された表現と当該表現に付与された分類情報を記憶する記憶手段と、前記記憶手段に記憶された表現および分類情報を参照し、前記第1の表現構造に対応する表現と第2の表現構造に対応する表現を抽出し、抽出された第1の表現構造に対応する表現、第2の表現構造に対応する表現および対応する分類情報を含む複数の表現組合せ情報を作成する作成手段と、前記複数の表現組合せ情報のうち異なる表現組合せ情報の分類情報を評価する評価手段とを有する管理用装置と、前記評価手段による評価結果を含む情報を表示する表示手段、および前記表示手段によって表示された評価結果に応じて分類情報の修正または確認を入力する入力手段と有する端末装置とを備える。
請求項16に係る管理用装置はさらに、前記作成手段により作成された表現組合せ情報に基づき前記記憶手段から分類情報の集合を選択する選択手段を含み、前記表示手段は、前記選択された分類情報の集合を表示する。請求項17に係る管理用装置はさらに、前記作成手段により作成された表現組合せ情報に基づき入力された文書情報から抽出された表現に分類情報を付与する付与手段を含む。
請求項18に係る分類情報管理プログラムは、構文解析及び意味解析のいずれかの解析結果から得られる構造のうち特定の関係を有する第1の表現構造及び第2の表現構造に対応する表現を、入力された文書情報から抽出する抽出する第1の抽出ステップと、抽出された表現と当該表現に付与された分類情報を記憶するステップと、記憶された表現および分類情報を参照し、前記第1の表現構造に対応する表現と第2の表現構造に対応する表現を抽出する第2の抽出ステップと、第2の抽出ステップで抽出された第1の表現構造に対応する表現、第2の表現構造に対応する表現および対応する分類情報を含む複数の表現組合せ情報を作成するステップと、前記複数の表現組合せ情報のうち異なる表現組合せ情報の分類情報を評価するステップと、評価結果を表示するステップとを有する。請求項19に係る分類情報管理プログラムはさらに、前記作成ステップにより作成された表現組合せ情報に基づき入力された文書情報から抽出された表現に分類情報を付与するステップを含む、
請求項1によれば、記憶手段に記憶された表現とこれに付与された分類情報から表現組合せ情報を作成し、異なる表現組合せ情報に基づき分類情報を評価するようにしたので、分類情報を付与する規則のブレを抑制し、分類情報の付与、管理、修正等の精度を上げることができる。
請求項2によれば、第1の選択手段により1組の表現組合せ情報を選択し、両者を比較することで、分類情報の一致、不一致等を容易に認識することができ、分類情報の管理、修正、確認を精度良く行うことができる。請求項3によれば、表現組合せ情報に含まれる第1または第2の表現構造を比較することで、関連するもしくは類似する組の表現組合せ情報を精度良く選択することができ、そのような組の表現組合せ情報の分類情報により精度良く分類情報の管理、修正、確認を行うことができる。
請求項4によれば、表現組合せ情報に特別の分類情報があるとき、これを比較対象から除外することで、関連するまたは類似する組の表現組合せ情報をより精度よく選択することができる。請求項5によれば、分類情報の一致、不一致、または未定義とともに第1および第2の表現構造に対応を表示することで、分類情報のブレまたは差異を一見して把握することができる。請求項6によれば、ユーザは、表示された評価結果を見て、簡単にブレなく分類情報の修正や確認等を行うことができる。
請求項7によれば、記憶手段に蓄積された表現および分類情報から得られた表現組合せ情報を利用して新たに入力された文書情報の表現に付与すべき分類情報を選択し、ユーザは、選択された分類情報の中から最適な分類情報を付与することができる。
請求項8によれば、記憶手段に蓄積された表現および分類情報から得られた表現組合せ情報を利用して新たに入力された文書情報の表現に分類情報を付与するため、過去の分類付与規則を作業対象の付与方式に合わせて選択して利用することができ、分類付与規則の作成効率を上げることができ、また、過去に既に検証して使われた実績のあるものを参照することにより、再利用可能な部分での安定した抽出性能を実現することが容易になる。
請求項9によれば、第3の選択手段により入力文書の表現と組合せ表現情報の表現とを比較することで、関連性の高いまたは類似する組合せ表現情報を得ることができ、その結果、新たな入力文書情報に付与される分類情報の精度を高めることができる。請求項10によれば、出現頻度を比較することで、入力された文書情報と選択される表現組合せ情報の類似性をより高めることができる。
請求項11によれば、ユーザの入力に応じた表現組合せ情報を作成することができ、ユーザの意図に沿った分類情報の管理、修正、確認を行うことができる。請求項12によれば、それぞれの表現組合せ情報における分類情報の区分だけではなく、複数の表現組合せ情報の間での分類情報の区分も間接的に識別することが可能となる。
請求項13によれば、係り受け関係にある表現から文書情報の意味を的確に抽出し、これに分類情報を付与することができる。請求項14によれば、主語、述語または目的語の表現から文書情報の意味を的確に抽出し、これに分類情報を付与することができる。
請求項15および請求項18は、請求項1と同等の構成要件を含むものであり、上記した請求項1と同様の効果を有する。請求項16によれば分類情報の集合を選択することで、過去に蓄積された分類情報を利用して分類情報を新たな入力文書に付与することができる。請求項17および請求項19は、請求項8と同等の構成要件を含むものであり、請求項8と同様の効果を有する。
以下、本発明の最良の実施形態について図面を参照して説明する。
図1は、本発明の実施例に係る分類情報管理装置の構成例を示すブロック図である。分類情報管理装置10は、キーボード、画像スキャナ、その他の入力を含む入力装置12、外部と情報の送受を可能にする外部インタフェース(I/F)14、表示装置16、プリンタ等の出力装置18、種々のデータを記憶可能な記憶装置20、プログラムを格納するプログラムメモリ22、プログラムに従い各部の動作を制御可能なCPU(Central Processing Unit)24を含んで構成される。
分類情報管理装置10は、プログラムメモリ22に分類情報管理プログラムを格納しており、当該分類情報管理プログラムにより、テキスト情報の解析結果中の注目表現に対し意味を表すコード情報を付与したり、付与コード指定情報を入力として、この付与コード指定情報の修正、再利用などの管理を支援する。
図2は、分類情報管理装置の機能的なブロック図である。分類情報管理装置10は、付与コード指定情報を入力する付与コード指定情報入力部30、付与コード指定情報を記憶する付与コード指定情報記憶部32、第一部分表現指示部34、第一部分表現指示部34で指示された表現を抽出する第一部分表現抽出部36、第二部分表現整理部38、第二部分表現指示部40、関連候補選出部42、関連候補評価部44、評価情報提示部46、および付与コード指定情報出力部48を備えている。
付与コード指定情報入力部30は、付与コード指定情報の集合からなるコードセットの入力を受け付け、付与コード指定情報記憶部32は、付与コード指定情報の集合のコードセットを記憶する。
付与コード指定情報は、特許文献1、2のようにテキスト情報に対して意味解析を行い、主語、目的語、述語などの関係を用いて抽出された注目表現に対しコードを付与したものでもよいが、本実施例では説明を簡単にするためにテキスト情報に対して係り受け解析結果を行い、係り受け関係にある注目表現を抽出した例を示していく。
付与コード指定情報は、例えば図3に例示するコード付与部の構成を用い、これを図4に例示する処理に基づき生成される。図3において、コード付与部は、テキスト情報入力部100、テキスト情報解析部102、解析結果変換部104、注目表現抽出指定部106、注目表現抽出部108、コード情報入力部110、コード情報付与部112、付与コード指定情報出力部114とを備えている。
テキスト情報入力部100よりテキスト情報が入力されると、テキスト情報解析部102は、入力されたテキスト情報を解析し、テキスト情報に含まれる単語等の切り出しを行う(図4のステップS101)。解析結果変換部104は、テキスト情報の解析結果を受け取り、後続の処理に適した形にデータ構造の変換処理を行う(ステップS102)。注目表現抽出部108は、注目表現抽出指示部106の指示に従い、変換処理されたデータからコードを付与する対象となる注目表現を抽出する(ステップS103)。次に、コード情報入力部110からコード情報を入力し、コード情報付与部112は、入力されたコード情報を抽出された注目表現に付与する(ステップS104)。付与コード指定情報出力部114は、注目表現と付与されたコード情報のセットを出力し(ステップS105)、これが図2に示す付与コード指定情報入力部30の入力となる。
次に、付与コード指定情報の具体的な生成例を説明する。図3に示すテキスト情報入力部100からテキスト情報を入力し、テキスト情報解析部102においてテキスト情報に対する係り受け解析を行う。その後、注目表現抽出指定部106において、図5に例示するような注目表現抽出指定データに従い注目表現を抽出する。図5は、係り受け解析されたテキスト情報から、「係り語」、「付属語」、「受け表現」、「修飾語(係り語が「色」、「絵」、「領域」)」、「受け表現」を抽出するときの指定データ例である。
注目表現抽出部108は、図5に示す指定に応じて、図6に例示するような注目表現を抽出する。テキスト情報として、「薄い色がたまにかすれることがあります。」、「仕上がりがとてもきれいで気に入ってます。」が入力されたとき、図5の指定に従って抽出される注目表現の例を一つずつ挙げると、「仕上がり」、「が」、「きれい」、「薄い(絵)」、「が」、「かすれる」の係り受け関係の表現がそれぞれ抽出される。実際にはさらに多くの係り受け関係が抽出されるが、以降の説明を簡単にするために省略する。
図7は、複写機等の画像形成装置における画質についてのコード表の例示である。コード表は、コード番号、コードラベル、コード概要、コード説明を含み、例えばコード「CA11」は、コードラベル「文字画質」を表し、そのコード概要は「文字品質に関するもの」であり、コード説明は「文字品質に関するもので他の分類に入らないもの」である。コード表は、好ましくは、図1に示す記憶装置20に記憶されている。
図8は、図7に例示するコード表に従って注目表現にコードを付与するためのユーザ入力インタフェース用の入力画面であり、図1に示す表示装置16のディスプレイに表示される。ユーザ入力インタフェースは、テキスト情報を解析して抽出された注目表現(ここでは係り受け部)が、コード指定入力の対象表現の欄120に自動的にセットされる。勿論、ユーザは、他の任意の係り受け表現をこの欄120に入力することができるし、システム側から予め定められた順に抽出された注目表現のなかから選ばれてセットされてもよい。さらにインタフェースは、コードを選択するための欄122と、選択したコードの説明を表示する欄124を含んでいる。コード選択の欄122には、対象表現の係り受け関係から複数のコード番号が候補として表示され、ユーザは、コードの説明の欄124を参照しながら最適なコードを選択し、登録ボタンにより登録する。これにより、注目表現とコード情報のセットである付与コード指定情報が生成される。
こうして、テキスト情報から抽出された注目表現に対して図7に例示するようなコード表に従いコード情報を付与した付与コード指定情報の集合を図9に示す。これらの付与コード指定情報は、図2の付与コード情報入力部30から入力されて付与コード情報記憶部32に記憶される。
再び図2に戻り、各部の構成を説明する。第一部分表現指示部34は、注目表現から抽出する部分表現を指定し、この指定は第一部分表現抽出部36に与えられる。第一部分表現抽出部36は、付与コード指定情報記憶部32から付与コード指定情報を読み出し、注目表現から第一部分表現を抽出し、抽出した第一部分表現をまとめて第二部分表現整理部38に供給する。例えば、第一部分表現指示部34が、図9に示す付与コード指定情報から「係り語」を指定したとき、図10に示す「係り語」をまとめた情報が抽出され、抽出された「係り語」が第二部分表現整理部38に通知される。
第二部分表現指定部40は、注目表現から抽出する第二部分表現を指定し、第二部分表現整理部38は、これに応答して、第一部分表現毎に対応する第二部分表現を付与コード指定情報から抽出しまとめる(以降、第一部分表現毎に第二部分表現と付与されたコードをまとめた情報を「コード分枝情報」と呼ぶ)。例えば、第二部分表現指定部40により「付属語」-「受け表現」の組が第二部分表現として指定された場合には、第二部分表現整理部38は、付与コード指定情報記憶部32から該当する第二部分表現を抽出する。その結果、図11A〜図11Dに示すようなコード分枝情報が得られる。
図10は、8つの「係り語」を示しているが、図11A〜図11Dは、その内の4つの係り語、「写り」、「仕上がり」、「文字」、「出力」についてのコード分岐情報を示している。図11Aに示すコード分岐情報には、「写り」という係り語と、「が よい」、「が きれい」、「には こだわらない」、「も ばっちり」、「が ボケる」、「が 薄い」という6つの「付属語」および「受け表現」の組合せが示されている。同様に、図11Bに示すコード分岐情報には、「仕上がり」という係り受け語と7つの「付属語」および「受け表現」の組合せが示され、図11Cに示すコード分岐情報には、「文字」という係り語と、5つの「付属語」および「受け表現」の組合せが示され、図11Dに示すコード分岐情報には、「出力」という係り語と、8つの「付属語」および「受け表現」の組合せが示されている。
次に、関連候補選出部42は、予め定められた基準に従って、第一部分表現毎に対応する第二部分表現と対応するコード情報について評価を行い、関連するコード分枝情報の組を選出し、これを評価結果として関連候補評価部44に通知する。評価情報提示部46は、単に評価情報をユーザに提示してもよいし、情報の提示に対する入力を受け付けて付与コード指定情報記憶部32に記録されている情報を更新することもできる。
付与コード指定情報出力部48は、付与コード指定情報記憶部32に格納されている付与コード指定情報やコードセット等の情報を予め定められた指示あるいはユーザからの指示に従って出力する。
次に、分類情報管理装置の処理の流れを図12に示すフローを参照しつつ詳細に説明する。先ず、付与コード指定情報入力部30から付与コード指定情報が入力されると(ステップS201)、その付与コード指定情報が付与コード指定情報記憶部32に格納される。付与コード指定情報は、前述のように、注目表現抽出指定部106の指定データ(図5を参照)に従って注目表現を抽出し(図6を参照)、注目表現に対してコード表(図7を参照)に沿って、図8に例示するユーザ入力インタフェースを介してコード情報を付与したもの(図9を参照)である。一連の付与コード指定情報の集合をまとめてコードセットとして格納してもよいし、コードセットはコード表をともに格納してもよい。
次に、第一部分表現抽出部36は、付与コード指定情報記憶部32から付与コード指定情報を読み出し、その中の注目表現から第一部分表現指示部34の指示に従って第一部分表現を抽出しまとめる(ステップS202)。本実施例では、一例として第一部分表現の「係り表現」を選んだものとして説明を行う。前述したように、図9のような付与コード指定情報を含んだコードセットの場合に、図10に例示される第一部分表現が抽出され、この処理の結果が第二部分表現整理部38に通知される。
次に、第二部分表現整理部38は、第一部分表現抽出部36から送信された第一部分表現毎に該当する付与コード指定情報を付与コード指定情報記憶部32から読み出して、その注目表現から第二部分表現指示部40が指示する第二部分表現と対応するコード情報を抽出し、これらをまとめて整理し、図11A〜図11Dに例示するようなコード分枝情報を作成する(ステップS203)。
次に、関連候補選出部42は、予め定めた基準に従ってコード分枝情報の組を選出する(ステップS204)。組の選出は、例えば対応する第二部分表現の数、対応する第二部分表現の割合、対応する第二部分表現毎に付与されているコードの一致等を元に算出した値を予め定めた基準値に照らして判定することができる。例えば対応する第二部分表現の一致する最小数を3とし、第二部分表現の組の付与されたコードが一致する割合の最低値を0.5とする。
例えば図11を参照すると、図11Aと図11Cでは、対応する第二部分表現の数は、「きれい」、「ボケる」、「薄い」の3つだが、このうちコードが一致するものは、「CA01m」の一つしかないため選出されない。図11Aと図11Dの組は、対応する第二部分表現は、「きれい」と「薄い」の2つしかないので選出されない。一方、図11Aと図11Bは、図13に示すように、対応する第二部分表現の数が「よい」、「きれい」、「こだわらない」、「ばっちり」、「ボケる」、「薄い」の6つであるため基準を満たし、かつ付与されたコードの一致する割合が4/6であるため基準値を満たす。この結果、図11Aと図11Bのコード分岐情報の組が関連するまたは類似する候補組として選出される。
また、関連するコード分岐情報の組の選択は、次のようにして行うことが可能である。図示しない入力手段により、付与コード指定情報中のコードに対して比較処理の際の扱いを変えることを指示する情報を入力し、コード分枝情報の対応を探す際の計算時に、この入力情報を参照して処理してもよい。例えば、対象外のコード情報が付与されていた場合や、コードが付与されていなかった場合に、類似するコード分枝情報を判定する処理において、コードの不一致による判定計算上のペナルティを削減したり、コードの不一致の判定計算の対象から外すなどして、指定されたコード情報に対する扱いを他の場合と変える。これにより、たまたま片方でコードが入力されなかった組と、異なる意味を持つものや異なるコードが割り当てられている組での扱いを変えることができ、付与されているコード情報の不備によるノイズを省いて類似するコード分枝情報を選択することができるようになる。
次に、コード分岐情報の組は、関連候補評価部44によってコードの対応関係が評価される(ステップS205)。この評価は、例えばコードが完全に一致していることを確認してもよいし、食い違いを許容する類似コードの指定が予め用意されている場合には、その範囲での食い違いを許容した形での比較を行ってもよい。本実施例においては簡単にコードが付与されているコードが一致しているか否かを判定するものとして説明を続ける。
次に、評価情報提示部46は、評価結果をディスプレイに提示する(ステップS206)。評価情報提示部46は、例えば図14に示すようなインタフェース入力画面を介して、図13において関連候補として選出されたコード分岐情報の組の評価結果を提示する。コードの食い違い部分だけを提示することもできるが、図14では、コードが一致するものに加えて、コードが不一致のもの、および一方のコードが未定義のものを表示し、一致するものは、左側のラジオボタンを非アクティブにし、それ以外のものはアクティブに表示してある。コードが食い違うところでは、アクティブのラジオボタンを選択することで、それぞれ指定されているコードの説明と元のテキスト情報などを提示することができる。図14の例では、上から4番目の「が 薄い」という第二部分表現が選択された状態を示してあり、第一部分表現が「写り」の側では、コードCA01が指定されているのに対して、右側の「仕上がり」の側では、コードCA21mとなっている。ここでのコードは図7に示したコード表に沿っており、例えば「写り」「が」「薄い」という表現を、「仕上がり」「が」「薄い」という表現に揃えるように、そのコードをCA21mの色再現品質に関するコードに修正することができる。
また、図14に示す例では、「が ボケる」という表現について、「写り」の側ではコードCA01mが指定されているが、「仕上がり」の側においてコードが付与されていない。このような未定義部分に関して、「仕上がり」側にコード「CA01m」を選択することを推薦するために、特別にCA01mを選択するためのボタンが表示されている。
ユーザは、提示された評価結果を参照し、コードの修正・確認を行う(ステップS207)。このように、入力データの元となっているテキスト情報において似た使われ方をしていると推定されるコード分枝情報の組が関連候補として選択され、さらにその中で対応する表現について付与されたコードの食い違いのある表現を選択的に確認・修正することができるために、コードの付与のばらつきが生じることを効率的に防止することができる。言い換えれば、異なる係り部分の受け部分及び分類情報を比較分析することにより、人手による分類情報のブレを検出し、分類の信頼性を向上させることができる。
上記図14に示すようなユーザ入力インタフェースを介して修正・確認された後、付与コード指定情報出力部48は、修正された付与コード指定情報を出力する(ステップS208)。また、付与コード指定情報出力部48は、コード分枝情報の修正確認が予め定められた基準に達したとき、例えば選出された関連するコード分枝情報の組についてすべて確認・修正が終わると、全てあるいは一部の付与コード指定情報を出力するようにしてもよい。付与コード指定情報出力部48はまた、ユーザから指示されたタイミングに従ってコード付与情報の一部あるいは全てを出力してもよい。付与コード指示記憶部32は、付与コード指定情報出力部48から出力された付与コード指定情報に基づき記憶内容を更新する(ステップS209)。
上記実施例では、分類情報管理装置を単一のパーソナルコンピュータ等の電子装置により構成する例を示したが(図1を参照)、必ずしもそのような構成に限らず、図15に示すように、テキスト情報管理システム、解析コード付与システム、付与コード管理システム、およびその他の複数の電子装置等をネットワークにより接続したクライアント・サーバシステムや分散処理システムにより分類情報管理装置を構成するようにしてもよい。
さらに分類情報管理装置または分類情報管理システムに搭載される分類情報管理を実行するためのプログラムは、CDやDVD等の記録媒体に格納されて提供されたり、サーバからネットワークを介して提供されるものであってもよい。
次に、分類情報管理装置の第2の実施例について説明する。第1の実施例では、人手によりコードを指定された付与コード指定情報についてコードの不備や不整合を抽出して整理することを支援したが、第2の実施例では、新たに解析したテキスト情報に対するコードセットの作成を、過去または既存の整備されたコードセットを用いて支援する。ここで、ある目的のために作成された付与コード指定情報の集合を以降、コードセットと呼ぶ。
図16は、第2の実施例に係る分類情報管理装置の機能的ブロック図を示しており、第1の実施例で示した図2の構成と同一のものについては同一参照番号を付してある。図16において、コードセット蓄積部200は、過去に調整したコードセットを蓄積する記憶部である。コードセット候補選定部202は、必要に応じてユーザからの指示を受付け、コードセット蓄積部200に蓄積されている過去に調整を行ったコードセットから再適用するコードセットの候補を選定する。
付与コード指定情報入力部30は、テキスト情報を解析変換処理した付与コード指定情報(以降、入力解析情報)を入力する入力部である。但し、本実施例では、既存のコードセットを再利用するため、入力解析情報のコード情報が部分的あるいは全てにおいて欠落していることを許容する。付与コード指定情報記憶部32は、付与コード指定情報入力部30を介して入力された入力解析情報を記憶し、また、再適用する候補であるコードセットの付与コード指定情報をコードセット蓄積部200から読み出し、コードセット毎に整理して一時記憶する記憶部である。
第一部分表現指示部34は、注目表現から抽出する第一の部分表現を指示する。第一部分表現抽出部36は、付与コード指定情報記憶部32に記憶された付与コード指定情報の注目表現から指定された第一部分表現を抽出し、まとめてから順次あるいは一括して第二部分表現整理部38に通知する。第二部分表現指示部40は、注目表現から抽出する第二の部分表現を第二部分表現整理部38に指示する。第二部分表現整理部38は、コード分岐情報を作成する。
選択情報抽出部204は、コード分枝情報におけるコード情報の区分をもとに付与コード指定情報記憶部32に読み出されている過去に調整されたコードセットを選別するための区割り識別情報を選定し、この区割り識別情報に該当する注目表現を入力解析情報から抽出してコードセット選択部206に通知する。コードセット選択部206は、ユーザから入力された情報を区割り識別情報と照らして適用する過去のコードセットを選択する。
コードセット再適用部208は、選択されたコードセットのコードを入力解析情報に割り当てる、あるいは選択されたコードセットにおけるコードの区分を入力解析情報に割り当てる。付与コード確認部210は、選択されたコードセットによるコードの割り当てを確認して具体的なコードを与える、あるいはコードの区分を確認し修正するための表示・入力手段である。
付与コード指定情報出力部48は、過去のコードセットに従ってコードを付与された新たに調整されたコードセットを出力するための出力手段である。付与コード情報出力部48は、調整したコードセットをコードセット蓄積部に格納することも行なう。
次に、本発明の第2の実施例の処理フローを示す図17を参照してその動作を説明する。付与コード指定情報入力部30は、コード付与対象であるテキスト情報に対して解析処理、変換処理を施した入力解析情報を入力する(ステップS301)。本実施例では、コード情報の付与を既存のコードセットのデータを用いて支援するものであるため、この入力の時点では入力した付与コード指定情報のコード情報は、全てあるいは一部がまだ未設定のものとして説明を行う。
例えば図18のようなテキスト情報が入力され、その解析、変換が行われる。その結果、図19に示すような入力解析情報が得られ入力される。入力解析情報は、「係り語」、「付属語」、「受け表現」を含んでいるが、それらのコードは未だ付与されていない。
次に、コードセット候補選定部202は、入力解析情報に対してコード情報を付与するために利用するコードセット候補をコードセット蓄積部200から選定する(ステップS302)。この際、コードセット候補選定部202は、例えば図20に示すようなインタフェース画面をユーザに提示し、ユーザに選択を促すことができる。選択画面には、複数のコードセットの中からコードセットを選択する表示欄と、選択したコードセットの内容を説明する表示欄が含まれている。
以降の説明は、画質に関する情報を選択して分類したコードセットAと、顧客からのフィードバック等の情報を営業活動の視点から分類したコードセットBをコード情報付与に再利用する候補として選択されたものとする。
コードセットAは、前述した図7に例示するコード表に沿ってコード情報が付与されたものであり、図9に例示した付与コード指定情報を含んでいる。また、コードセットBは、図21に示したコード表に沿ってコード情報が付与されたものであり、図22に例示した付与コード指定情報を含んでいる。
なお、コードセット候補の選択は,コード情報が付与された際の過去の入力テキスト情報中の単語や係り受け表現の分布と入力テキスト情報における分布との類似をもとめる計算、例えば単語の出現頻度をベクトル化して内積を求めるなどの計算などにより、類似するコードセットを選択するようにすることもできる。類似したもの選択することで、ユーザによる選択を省略することもできる。
選定されたコードセットの付与コード指定情報は、コードセット蓄積部200から読み出されてコードセットの識別子と関係付けるなどしてコードセット毎に整理して付与コード指定情報記憶部32に格納される。
第一および第二部分表現指示部34、40により注目表現から抽出する第一、第二部分表現の指示を行う(ステップS303)。この指示は、予め定められたものでもよいし、図示しないユーザインタフェースを介して、予め用意されたリストからユーザが選択をおこなってもよい。例えば、本実施例で用いているように係り受け構造を注目表現として取り出した場合には、このリストは、[係り語]、[係り語+付属語]、[連帯接続語+係り語]、[受け表現]、[付属語+受け表現]などの項目を含んでいる。リストからの選択により、第一部分表現の指示を[係り語]、第二部分表現の指示を[付属語+受け表現]としてもよいし、第一部分表現と第二部分表現の組み合わせを反対にしてもよい。あるいは、その他の指定を行うこともできる。
また、テキスト情報の解析処理が意味解析であった場合には、この部分表現の抽出は、例えば[主語]、[目的語]、[述語]などのリストを用意することができるし、また、意味解析処理の機能によっては[手段]、[場所]などとして抽出される表現を指定することもできる。
ここでは第一部分表現に「係り語」、第二部分表現に「付属語+受け語」とした組み合わせ(以降、説明の簡単のために部分表現組α)と、第一部分表現に「受け語」、第二部分表現に「係り語+付属語」とした組み合わせ(以降、説明の簡単のために部分表現組β)が選択されたものとして説明を行う。
付与コード指定情報記憶部32に読み出されたコードセット候補に対して第一部分表現抽出部36、第二部分表現整理部38を用いて第1の実施例のときと同様にコード分枝情報を作成する(ステップS304)。コードセットAに対して部分表現組αを用いたときのコード分枝情報の例は図11Aないし図11Dに示す通りであり、コードセットBに対して部分表現組αを用いたときのコード分岐情報の例を図23Aないし図23Dに示す。
選択情報抽出部204は、選択されたコードセットのコード分枝情報を比較し、各コードセットの違いがコードの割り当ての組合せに現れているものを選択する。各コードセットにおいて、コードの値の意味は必ずしも等しくないため、コードの割り当ての組合せを調べる。
例えば、コードセットA、Bにおいて、部分表現組αのとき、第一部分表現が「写り」のコード分枝情報とその中でコード情報が同じである組み合わせを図24に示す。図24の左側がコードセットAに対するもの、右側がコードセットBに対するものである。それぞれのコード情報は、異なるコード表(図7および図21)に基づいて付与されているので、値が異なっており単純に照らし合わせることはできない。しかし、第二部分表現は、対応するものがあれば判別することができ、また、コードセットA側で同じコード情報が付与されている第二部分表現の組合せが、コードセットB側で同じコード情報が付与されているか否か、あるいはコードセットA側で異なるコード情報が付与されている第二部分表現の組合せがコードセットB側で異なるコード情報が付与されているか否かを確認することができる。例えば、図24において、コードセットAでは、第二部分表現「よい」、「きれい」、「ばっちり」は同じコード情報が付与されており、これらの第二部分表現は、コードセットBでも同一のコード情報が付与されている。
これに対し、第一部分表現が「出力」であるものは、図25Aに示したコードセットAと図25Bに示したコードセットBにおいて、対応する第二部分表現へのコード情報の付与の組合せが異なっている。例えば、コードセットAでは、[が-速い]と[を-抑制する]という第二部分表現がともにCA90のコード情報が付与されているが、コードセットBでは、CB32とCB23と異なるコード情報が付与されている。
図26は、コードセットA,Bにおける部分表現組βのとき、第一部分表現が「きれい」のコード分枝情報とその中のコード情報が同じである組合せを示したものである。左側に示したコードセットA側では、[文字-が]と[発色-が]の第二部分表現に対応するコード情報は異なっているのに対して、右側に示したコードセットB側では同じコード情報が付与されている。
コード情報が同じである第二部分表現の対応が異なることは、コード情報を付与する際に用いたコード表毎に、情報を分類する際に細かく分類したい種類の情報とそうでない種類の情報が異なることに起因しており、コード情報を付与して分析や情報抽出する際の意図を反映している。
本実施例では、コード分枝情報における同じコードが付与されている第二部分表現の組合せ(言い換えれば、付与されるコードが異なる第二部分表現の組み合わせでもある)をコード付与区分情報と呼び、このコード付与区分情報を利用してコードセットの選択を行なう。
コード付与区分情報は、コード分枝情報毎に付与されているコードが同じものが分かればよいので、例えば簡単なリスト構造を持つデータにより実現できる。以下のリスト構造は、図26の左側のコードセットAのコード分枝情報に対応するコード付与区分情報の例である。
リスト構造;(きれい((写り が)(仕上がり が)(出力 が))((文字 が))((発色 が))((外観 が)))
選択情報抽出部204は、コード付与区分情報をコードセット間で比較し、違いを識別するための情報を抽出する。違いを識別できる箇所は多く存在し得るため予め定めた基準に従って、その一部を区割り識別情報として選択する(ステップS305)。この選択は、例えばコードを付与しようとしている入力解析情報における表現の出現頻度の多いものを優先する、あるいは、別途図示しない入力部から入力された表現の重要度の情報をもとに重要なものを優先するなどの順序付けを行い選択する。また、本実施例での部分表現組αと部分表現組βのように複数の部分表現組を用い、かつ、それらの間で第一部分表現の指示と第二部分表現の指示が対応付けられるように設定しておくことで、それぞれのコード分枝情報におけるコードの区分だけではなく、複数のコード分枝情報の間でのコードの区分も間接的に識別できるようにすることもできる。
たとえば、図25A、25Bにおいて、コードセットAとコードセットBにおけるコード情報の付与が異なる表現のうち、入力解析情報においては[出力-が-速い]と[出力-を-管理する]の出現頻度が高く、また、図26においてコードセットAとコードセットBにおけるコード情報の付与が異なるもののうち、入力解析情報においては[発色-が-きれい]と[文字-が-きれい]と[出力-が-きれい]の表現の出現頻度が高かったとすると、例えば、図27のように区割り識別情報が選択される。図27に模式的に示したが、区割り識別情報にはそれぞれの表現の組に対して分類が一致した際、異なった際にどのコードセットが適しているかを示す情報をまとめて保持することもできる。例えば図27の一番上の例においては、[出力-を-管理する]と[出力-が-速い]の注目表現に対して、異なるコードが付与される場合には、コードセットBにより近いとし、同じコードが付与される場合にはコードセットAにより近いとする情報を保持している。
選択情報抽出部204は、こうして抽出された区割り識別情報をコードセット選択部206に送信する。この際、区割り識別情報の選択時にまだ入力解析情報を参照していない場合には、この時点で入力解析情報を参照して入力解析情報に予め定められた頻度出現するものに限定するなど、区割り識別情報を選択して送信することができる。
例においては、上述の区割り識別情報に含まれる注目表現に加え、[出力-が-速い]と[出力-を-抑制する]という注目表現の組での区割り識別情報を加えて説明を行う。これは例えば、各コード付与区分情報の組み合わせに対して2組以上の区割り識別情報を抽出するという制限を課したことにより図25A、図25Bに示した組み合わせに対して用意したものである。
次に、コードセット選択部206は、適用するコードセットを選択する(ステップS306)。例えば、ユーザに区割り識別情報に含まれる注目表現の分類を入力させることでコードセットの選択に用いる情報を得ることができる。例えば、図28に示すようなインタフェースに区割り識別情報に含まれる注目表現を提示して、ユーザに分類を促すことができる。これを例えば、図29のようにユーザが分類した場合には、分類が異なるコードセットBが選択され、図30のように分類した場合にはコードセットAが選択されることになる。必ずしもこの2つの図の通りにならなくとも、各区割り識別情報ごとに判定して得点を比較することにより、どちらのコードセットがより望ましいかを選択することができる。このとき、別途区割り識別情報に重要度の情報を与えておくことで、この得点計算に重み付けを施してコードセットの選択を行うこともできる。
ここでは、ユーザがインタフェース画面を通じて選択操作を促す例を示したが、予めユーザが部分的にコードを付与しているような場合には、その付与されたコード情報での分類の情報を抽出して区割り識別情報を評価するという構成にすることもできる。このような場合には、コード分枝情報の作成時にも既に入力解析情報においてコード情報がついている部分を優先的に用いるなどの効率化を施すこともできる。
コードセット選択部206によりコードセットが選択されると、コードセット再適用部208により、入力解析情報についてコード情報が割り当てられる(ステップS307)。具体的には、入力解析情報における付与コード識別情報の注目表現と再利用するコードセットにおける付与コード識別情報の注目表現の一致する組を抽出し、その対応に従って再利用するコードセット側のコード情報に対応した情報を入力解析情報側に格納するという処理で実現することができる。この割り当ては、選択したコードセットのコード表に沿ってコードの値が埋め込まれてもよいし、図示しない入力部を介して実際にデータに書き込むコードの値への変換規則を別途指定してもよい。新しくコード表を用意するような場合には、過去のコード情報の値を直接用いるよりは新しいコード表に沿ったコード情報の値を付与コード指定情報に記録することになる。コードを付与した結果は、図9や図21と類似の付与コード指定情報となるので、ここで特には図示しない。
付与コード確認部210は、過去の付与コード指定情報を用いただけでは、新しいテキスト情報の中の抽出・分析対象としたい表現の全てにコード情報が付与されるとは限らないため、記録された付与コード指定情報の確認を行う(ステップS308)。このステップにおいて、付与されていない注目表現に対してコード情報を付与する以外にも、付与されたコード情報の確認、修正を行うようにしてもよい。図31は、過去のコードセットを再利用してコード情報を付与した注目表現に対してコードの確認を行うインタフェース画面の一例である。ここには、対象表現と、過去のコード(CB13)と、コード選択欄、および選択したコードの説明欄が表示されている。コードが付与されなかった注目表現については注目表現のリストの提示と図8に例示したような入力インタフェースによりコード情報を追加入力してもよい。また、付与されなかったコード情報については本実施例を再度適用して、他のコードセットも追加で適用することにより割り当てることもできる。
付与コード指定情報出力部48は、分析や情報抽出などのために、付与コード情報指定情報を出力する(ステップS309)。
過去に蓄積されているコードセットの情報だけでは必ずしも対象とする入力解析情報の全てにコード情報を付与することはできない。このような場合でも本実施例は、入力解析情報に既にコード情報が付与されている付与コード指定情報を許容しているため、再度本実施例を用いることで、先に利用したコードセットとは別のコードセットの情報を用いてコード情報を付与することができる。2回目以降の適用の際には、先に利用したコードセットが既に適用済みであることを示す情報を保持するか、あるいは、コード分枝情報や区割り識別情報の選択時などに選択する基準を変えるなどして同じコードセットが繰り返し選択されることを避けることができる。また、コードセット再適用部でコード情報を付与する際に、コード情報が未付与のものにだけ割り当てる、新しいコード情報を上書きするなどのほかに、第一部分表現や第二部分表現などを制限するなどの方法により予めコードセットのコード情報を適用する範囲を制限して適用することにより異なるコードセットを適用する際の競合を調整することができる。
上記第1および第2の実施例では、分析対象のテキスト情報に対して構文解析を行い、係り受け構造の情報を抽出する例で説明を行ったが、本発明は必ずしも係り受け構造に限定されるものではない。ここでは、前段の解析処理を替えたり、注目表現の選択を変えたりした場合の変更について説明を加える。
解析処理に例えば、意味解析処理を用いた例を説明する。意味解析処理を用いると、例えば、図32(a)、(b)に示すように、表面上の文字列に異なっていても、解析結果において語は文中の語間の役割で示される。「機械Aは機密文書に隠し文字も印刷する。」は、PRED “印刷する”、SUBJ“機械A”、OBJ“隠し文字”、OBL“機密文書”に意味解析される。また、「機密文書には機械Bも隠し文字を印刷する。」は、PRED “印刷する”、SUBJ “機械B”、OBJ“隠し文字”、OBL “機密文書”に意味解析される。例えば、図32(a)の「印刷する」に対して「機械A」が主語(SUBJ)であり、「隠し文字」が目的語(OBJ)などとなる。
この解析結果から注目表現を抽出する際には、例えば図33(c)のように、各語に示された文中での役割を示す記号、SUBJやOBJなどをそれぞれの語にあわせて注目表現を構成することができる。そして、第一部分表現、第二部分表現は注目表現の中から部分として選ぶことができるので、例えば図33(d)、図33(e)のように選ぶことができる。
以降の処理は、係り受けで説明した処理と同じように行うことができる。図34(f)は注目表現について、人間が注目表現を解釈しやすいように変換する例である。処理の流れの中に注目表現を提示する場面がある。その場面において、図33(c)のような表現を提示されても人によっては解釈が難しいという場合がある。実際には注目表現の提示は第一部分表現と第二部分表現にかかわる部分だけに制限して提示することもできるので、もう少し簡潔な表現として提示されるが、それでも「主語」「目的語」などと提示されるよりも、図34(f)のようにそれぞれの語の文中の役割に応じた付属をおぎなって読める形になっているほうが望ましい場合は少なくない。図34(f)のように注目表現が変換された場合には、以降の処理には実施例で説明した係り受けの場合と同様の処理を適用できることは明らかであろう。
以上、本発明の好ましい実施の形態について詳述したが、本発明は、係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
本発明は、文書情報への分類情報の付与、管理、確認、修正等を行う分類情報管理装置、分類情報管理システム、分類情報管理プログラムとして利用される。
本発明の実施例に係る分類情報管理装置の構成を示すブロック図である。 第1の実施例の分類情報管理装置の機能的ブロック図である。 付与コード指定情報を生成するコード付与部の構成を示すブロック図である。 図3に示すコード付与部の動作フローである。 テキスト情報から注目表現を抽出するときの指定データ例を示す図である。 テキスト情報と抽出された注目表現の例を示す図である。 複写機等の画像形成装置における画質につていのコード表の例である。 コードを付与するためのユーザ入力インタフェース用の入力画面の一例である。 コード付与指定情報の例である。 第一部分表現の抽出例を示す図である。 コード分岐情報の例を示す図である。 コード分岐情報の例を示す図である。 コード分岐情報の例を示す図である。 コード分岐情報の例を示す図である。 第1の実施例に係る分類情報管理装置の動作フローを示す図である。 選択されたコード分岐情報の例を示す図である。 選択されたコード分岐情報の評価結果を示すユーザ入力インタフェースの例を示す図である。 分類情報管理装置のシステム構成例を示す図である。 第2の実施例の分類情報管理装置の機能的ブロック図である。 第2の実施例に係る分類情報管理装置の動作フローを示す図である。 入力されるテキスト情報の例を示す図である。 第2の実施例におけるテキスト情報を解析処理した後の入力解析情報を示す図である。 再利用するコードセット候補を選択する選択画面例を示す図である。 第2の実施例で用いられる第2のコード表を示す図である。 第2のコード表に沿って付与された付与コード指定情報を示す図である。 コードセットBに対し部分表現組αを用いたときのコード分岐情報を示す図である。 コードセットBに対し部分表現組αを用いたときのコード分岐情報を示す図である。 コードセットBに対し部分表現組αを用いたときのコード分岐情報を示す図である。 コードセットBに対し部分表現組αを用いたときのコード分岐情報を示す図である。 コードセットA、Bにおける第一部分表現「写し」のコード付与区分情報を示す図である。 コードセットAにおける第一部分表現「出力」のコード付与区分情報を示す図である。 コードセットBにおける第一部分表現「出力」のコード付与区分情報を示す図である。 コードセットA,Bにおける部分表現組βを用いたときの第一部分表現が「きれい」のコード分枝情報とその中のコード情報が同じである組み合わせを示す図である。 区割り識別情報を示す図である。 選択したコードを提示するユーザインタフェース画面を示す図である。 選択したコードを提示するユーザインタフェース画面を示す図である。 選択したコードを提示するユーザインタフェース画面を示す図である。 再利用するコードの情報の提示と確認を行うインタフェース画面を示す図である。 本実施例においてテキスト情報を意味解析した例を示す図である。 意味解析された入力から注目表現を抽出例を示す図である。 他の注目表現の抽出例である。
符号の説明
10:分類情報管理装置 30:付与コード指定情報入力部
32:付与コード指定情報記憶部 34:第一部分表現指示部
36:第一部分表現抽出部 38:第二部分表現整理部
40:第二部分表現指示部 42:関連候補選出部
44:関連候補評価部 46:評価情報提示部
48:付与コード指定情報出力部 100:テキスト情報入力部
102:テキスト情報解析部 104:解析結果変換部
106:注目表現抽出指定部 108:注目表現抽出部
110:コード情報入力部 112:コード情報付与部
114:付与コード指定情報出力部

Claims (18)

  1. 構文解析及び意味解析のいずれかの解析結果から得られる構造のうち特定の関係を有する第1の表現構造及び第2の表現構造に対応する表現を、入力された文書情報から抽出する抽出手段と、
    前記抽出された表現と当該表現に付与された分類情報を記憶する記憶手段と、
    前記記憶手段に記憶された表現および分類情報を参照し、前記第1の表現構造に対応する表現と第2の表現構造に対応する表現を抽出し、抽出された第1の表現構造に対応する表現、第2の表現構造に対応する表現および対応する分類情報を含む複数の表現組合せ情報を作成する作成手段と、
    前記複数の表現組合せ情報のうち異なる表現組合せ情報の分類情報を評価する評価手段と、
    前記評価結果を含む情報を表示する表示手段と、
    前記作成手段により作成された表現組合せ情報に基づき前記記憶手段から分類情報の集合を選択する選択手段とを含み、前記表示手段は、前記選択手段により選択された分類情報の集合を表示する、分類情報管理装置。
  2. 前記評価手段は、前記複数の表現組合せ情報から一定の基準を満足する少なくとも1組の表現組合せ情報を選択する第1の選択手段を含み、かつ当該選択された1組の表現組合せ情報を比較する、請求項1に記載の分類情報管理装置。
  3. 前記一定の基準は、比較される組の表現組合せ情報の第1または第2の表現構造の表現の一致数または一致割合、あるいは分類情報の一致数または一致割合のいずれか1つを含む、請求項2に記載の分類情報管理装置。
  4. 前記一定の基準は、比較される組の表現組合せ情報に、未定義または対象外の特別の分類情報が付与されている場合に、当該特別の分類情報を前記一致割合から除外する、請求項3に記載の分類情報管理装置。
  5. 前記表示手段は、選択された少なくとも1組の表現組合せ情報に含まれる第1および第2の表現構造に対応する表現を、分類情報が一致、不一致あるいは未定義の少なくとも1つの関係とともに表示する、請求項1ないし4いずれか1つに記載の分類情報管理装置。
  6. 分類情報管理装置はさらに、前記表示手段によって表示された評価結果に応じて分類情報の修正または確認を入力する入力手段を含む、請求項1ないし5いずれか1つに記載の分類情報管理装置。
  7. 分類情報管理装置はさらに、前記作成手段により作成された表現組合せ情報に基づき前記記憶手段から分類情報の集合を選択する第2の選択手段を含み、前記表示手段は、第2の選択手段により選択された分類情報の集合を表示する、請求項1に記載の分類情報管理装置。
  8. 分類情報管理装置はさらに、前記作成手段により作成された表現組合せ情報に基づき入力された文書情報から抽出された表現に分類情報を付与する付与手段を含む、請求項1に記載の分類情報管理装置。
  9. 前記付与手段は、入力された文書情報に含まれる第1または第2の表現構造に対応する表現と前記複数の組合せ情報に含まれる第1または第2の表現構造に対応する表現とを比較し、当該比較結果から特定の表現組合せ情報を選択する第3の選択手段を有し、前記付与手段は、当該選択された組合せ情報に基づき分類情報を付与する、請求項8に記載の分類情報管理装置。
  10. 前記第3の選択手段は、表現の出現頻度を比較し、特定の表現組合せ情報を選択する、請求項9に記載の分類情報管理装置。
  11. 分類情報管理装置はさらに、第1または第2の表現構造に対応する表現の抽出を指示する指示手段を含み、前記作成手段は、前記指示手段により指示された表現に基づき表現組合せ情報を作成する、請求項1ないし10いずれか1つにに記載の分類情報管理装置。
  12. 前記指示手段は、第1の表現構造と第2の表現構造を対とする第1の表現構造組と、第1の表現構造組と反対の第2の表現構造と第1の表現構造を対とする第2の表現構造組を指定し、前記作成手段は、前記第1および第2の表現構造組に基づき表現組合せ情報を作成する、請求項1ないし10いずれか1つに記載の分類情報管理装置。
  13. 前記第1の表現構造と第2の表現構造は、意味構文解析して得られた主語、述語、目的語の中から選択される、請求項1ないし12いずれか1つに記載の分類情報管理装置。
  14. 構文解析及び意味解析のいずれかの解析結果から得られる構造のうち特定の関係を有する第1の表現構造及び第2の表現構造に対応する表現を、入力された文書情報から抽出する抽出手段と、前記抽出された表現と当該表現に付与された分類情報を記憶する記憶手段と、前記記憶手段に記憶された表現および分類情報を参照し、前記第1の表現構造に対応する表現と第2の表現構造に対応する表現を抽出し、抽出された第1の表現構造に対応する表現、第2の表現構造に対応する表現および対応する分類情報を含む複数の表現組合せ情報を作成する作成手段と、前記複数の表現組合せ情報のうち異なる表現組合せ情報の分類情報を評価する評価手段とを有する管理用装置と、
    前記評価手段による評価結果を含む情報を表示する表示手段、および前記表示手段によって表示された評価結果に応じて分類情報の修正または確認を入力する入力手段と有する端末装置と、
    前記作成手段により作成された表現組合せ情報に基づき前記記憶手段から分類情報の集合を選択する選択手段を含み、前記表示手段は、前記選択された分類情報の集合を表示する、分類情報管理システム。
  15. 前記第1の表現構造と第2の表現構造は、係り受け関係にある係り語と受け語、または受け語と係り後を含む、請求項14に記載の分類情報管理システム。
  16. 管理用装置はさらに、前記作成手段により作成された表現組合せ情報に基づき入力された文書情報から抽出された表現に分類情報を付与する付与手段を含む、請求項14または15に記載の分類情報管理システム。
  17. 構文解析及び意味解析のいずれかの解析結果から得られる構造のうち特定の関係を有する第1の表現構造及び第2の表現構造に対応する表現を、入力された文書情報から抽出する抽出する第1の抽出ステップと、
    抽出された表現と当該表現に付与された分類情報を記憶するステップと、
    記憶された表現および分類情報を参照し、前記第1の表現構造に対応する表現と第2の表現構造に対応する表現を抽出する第2の抽出ステップと、
    第2の抽出ステップで抽出された第1の表現構造に対応する表現、第2の表現構造に対応する表現および対応する分類情報を含む複数の表現組合せ情報を作成するステップと、
    前記複数の表現組合せ情報のうち異なる表現組合せ情報の分類情報を評価するステップと、
    評価結果を表示するステップと、
    前記作成するステップにより作成された表現組合せ情報に基づき前記記憶するステップから分類情報の集合を選択するステップとを含み、前記表示するステップは、前記選択するステップにより選択された分類情報の集合を表示する、分類情報管理プログラム。
  18. 分類情報管理プログラムはさらに、前記作成ステップにより作成された表現組合せ情報に基づき入力された文書情報から抽出された表現に分類情報を付与するステップを含む、請求項17に記載の分類情報管理プログラム。
JP2006197133A 2006-07-19 2006-07-19 分類情報管理装置、分類情報管理システムおよび分類情報管理プログラム Expired - Fee Related JP4872504B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006197133A JP4872504B2 (ja) 2006-07-19 2006-07-19 分類情報管理装置、分類情報管理システムおよび分類情報管理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006197133A JP4872504B2 (ja) 2006-07-19 2006-07-19 分類情報管理装置、分類情報管理システムおよび分類情報管理プログラム

Publications (2)

Publication Number Publication Date
JP2008027057A JP2008027057A (ja) 2008-02-07
JP4872504B2 true JP4872504B2 (ja) 2012-02-08

Family

ID=39117640

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006197133A Expired - Fee Related JP4872504B2 (ja) 2006-07-19 2006-07-19 分類情報管理装置、分類情報管理システムおよび分類情報管理プログラム

Country Status (1)

Country Link
JP (1) JP4872504B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3865663B2 (ja) * 2002-07-18 2007-01-10 新世代株式会社 ボクシングゲームシステム
JP6229665B2 (ja) * 2013-01-11 2017-11-15 日本電気株式会社 テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及びプログラム
WO2018101506A1 (ko) * 2016-11-30 2018-06-07 주식회사 와이즈넛 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법
KR102473854B1 (ko) * 2020-07-02 2022-12-02 주식회사 에프에스 산업 직업 코드분류 시스템 및 그 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3577819B2 (ja) * 1995-07-14 2004-10-20 富士ゼロックス株式会社 情報探索装置及び情報探索方法
JP3266586B2 (ja) * 1999-07-07 2002-03-18 インターナショナル・ビジネス・マシーンズ・コーポレーション データ分析システム
JP3787318B2 (ja) * 2002-07-05 2006-06-21 株式会社ジャストシステム 情報処理装置、情報処理方法、及び情報処理プログラム
JP2005190284A (ja) * 2003-12-26 2005-07-14 Nec Corp 情報分類装置および情報分類方法
JP2006065366A (ja) * 2004-08-24 2006-03-09 Nec Corp キーワード分類装置およびその方法、端末装置ならびにプログラム

Also Published As

Publication number Publication date
JP2008027057A (ja) 2008-02-07

Similar Documents

Publication Publication Date Title
US10565313B2 (en) Automatic semantic rating and abstraction of literature
US6505202B1 (en) Apparatus and methods for finding information that satisfies a profile and producing output therefrom
US8606733B2 (en) System and method for classification and selection of color palettes
JP3429184B2 (ja) テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US9454528B2 (en) Method and system for creating ordered reading lists from unstructured document sets
US20080221870A1 (en) System and method for revising natural language parse trees
US20060069545A1 (en) Method and apparatus for transducer-based text normalization and inverse text normalization
CN106062730A (zh) 用于主动构成内容以便在连续社交通信中使用的系统和方法
US20160148105A1 (en) Information providing system, information providing method, and non-transitory recording medium
JPWO2005010789A1 (ja) 能力評価装置、能力評価方法および能力評価プログラム
US20060190684A1 (en) Reverse value attribute extraction
KR20120001053A (ko) 문서 감성 분석 시스템 및 그 방법
CN112672188B (zh) 一种主播推荐方法、设备及存储介质
US20160147873A1 (en) Information providing system, information providing method, non-transitory recording medium, and data structure
US5742776A (en) Decision support system
CN109960721A (zh) 基于源内容的多重压缩构造内容
JP4872504B2 (ja) 分類情報管理装置、分類情報管理システムおよび分類情報管理プログラム
Hanafi et al. Seer: Auto-generating information extraction rules from user-specified examples
CN113901263A (zh) 一种视频素材的标签生成方法及装置
KR102358991B1 (ko) 인공 지능을 활용한 서류 전형 시스템
JP2009199302A (ja) ドキュメントを解析するためのプログラム,装置および方法
KR102028356B1 (ko) 코멘트 기반의 광고 추천 장치 및 방법
Ralli et al. CrowdHeritage: Improving the quality of Cultural Heritage through crowdsourcing methods
JP2004318809A (ja) 情報抽出規則生成装置および方法
White et al. Adaptation of the DARPA machine translation evlauation paradigm to end-to-end systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090210

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110621

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110816

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111025

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111107

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141202

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4872504

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees
S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370