JP4046221B2 - Document processing device - Google Patents
Document processing device Download PDFInfo
- Publication number
- JP4046221B2 JP4046221B2 JP2002258596A JP2002258596A JP4046221B2 JP 4046221 B2 JP4046221 B2 JP 4046221B2 JP 2002258596 A JP2002258596 A JP 2002258596A JP 2002258596 A JP2002258596 A JP 2002258596A JP 4046221 B2 JP4046221 B2 JP 4046221B2
- Authority
- JP
- Japan
- Prior art keywords
- concept
- concept expression
- expression
- document
- data structure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、文書処理装置に関し、詳細には、ユーザが文書あるいは文書集合内に含まれる概念表現の中から、検索や絞込みを行いながら探索し、ユーザが必要とする概念表現を発見することを支援する文書処理装置に関する。
【0002】
【従来の技術】
近時、情報の電子化が進み、従来紙文書で保管されていた文書も電子化されるようになってきている。このような文書の電子化に伴って、大量の電子化文書が流通し、収集・蓄積された電子化文書をいかに管理して簡便に再利用するかが重要な問題となってきている。そこでは、大量の電子化文書から何らかの知見を見出すための分析技術が要望される。この分析技術は、大量の文書群を文書内容毎にグルーピングしていきながら各グループの文書群の内容を把握していく技術であり、従来、ユーザ主導でグループの定義式を入力し、検索技術を駆使してグルーピングする方法や、文書内の語句の共起度に基づくクラスタリング技術を駆使して自動でグルーピングする方法が提案されている。
【0003】
そして、従来、グルーピング技術としては、例えば、特許文献1の「データ分析システム」が提案されており、このデータ分析システムは、テキストから概念(文節内キーワード)を抽出して、目的に特化したカテゴリ辞書(シソーラス)を用いて、文書中の表現をラベル付きデータに変換している。また、概念間の係り受け関係を解析し、概念の組み合わせも概念として、概念の頻度/クロス表により特徴的な概念を抽出している。
【0004】
また、従来、特許文献2の文書処理装置が提案されている。この文書処理装置は、入力した文章に対して形態素解析を行う形態素解析部と、形態素列の部分列を重み付きで特定表現候補とする特定表現候補取得部と、予めいくつかの特定表現を格納した特定表現辞書と、形態素列の特定表現辞書中の表現に対するマッチ度を表す実数を、特定表現辞書の検索結果として出力する特定表現辞書検索部と、特定表現候補に対して、前記候補に付与された重みと、前記候補の前記特定表現辞書に対する検索結果とを変数として判別スコアを計算し、前記判別スコアが一定の値を下回る候補を除外する判別分析実行部と、特定表現候補のうち、判別分析実行部によって除外されなかった形態素の文字列を特定表現として出力する出力部とを設け、判別スコアを計算して、特定表現候補として残すかどうか判断して、的確な判断を行うことを目的としている。
【0005】
すなわち、この従来技術は、テキストから単語解析、係り受け解析を行い、文構造の類似度により文をグループ化し、テキストから抽出したキーワードとグループ化された文との出現回数の相関関係から相関の強い項目を抽出している。
【0006】
【特許文献1】
特開2001−75966号公報
【特許文献2】
特開2000−172691号公報
【0007】
【発明が解決しようとする課題】
しかしながら、このような従来技術にあっては、文書データの分析に重要な概念の発見を、ユーザが文書または文書集合内に含まれる概念を自由に探索して、発見できるようにする上で、改良の必要があった。
【0008】
すなわち、特許文献1記載の従来技術にあっては、テキストから概念を抽出して、カテゴリ辞書に基づいてカテゴリラベルをつけ、また、概念間の係り受け関係を解析し、概念の組み合わせも概念とし、さらに、概念の頻度/クロス表により特徴的な概念を抽出しているため、カテゴリ辞書を予め作成する必要があり、そのカテゴリ辞書の作成、維持に負担がかかるという問題があるとともに、頻度情報により特徴的な概念を抽出しているため、出現回数の多いものでないと抽出することができないという問題があった。
【0009】
また、特許文献2記載の従来技術にあっては、テキストから単語解析、係り受け解析を行い、文構造の類似度により文をグループ化して、テキストから抽出したキーワードとグループ化された文との出現回数の相関関係から相関の強い項目を抽出しているため、出現回数の多いものでないと抽出することができないといる問題があった。
【0010】
ところが、文書データの分析、特に、アンケートのようなデータの分析においては、特徴的ではない概念、例えば、頻度が多くない概念であっても、ユーザが分析に必要とする概念であることがあり、また、このような概念の場合、必要かどうかは、ユーザの意図や目的によって決まるものであり、自動的に抽出することが困難である。したがって、このような概念の発見を支援するためには、ユーザが文書あるいは文書集合内に含まれる概念を自由に探索し、発見することを支援する必要がある。
【0011】
そこで、本発明は、ユーザが文書あるいは文書集合内に含まれる概念表現の中から、検索や絞込みを行いながら探索し、ユーザが必要とする概念表現を発見することを支援する文書処理装置を提供することを目的としている。
【0012】
【課題を解決するための手段】
請求項1の発明は、入力された文書データに対して形態素解析、係り受け解析を行う言語解析手段と、前記言語解析手段における言語解析結果に基づいて、前記文書データの言語情報を保持する文書データ構造を生成するとともに、文節内に特定の自立語又は付属語が出現した場合に、前記文書データ構造内の単語や文節に対して、前記出現した特定の自立語又は付属語に応じて打消や要望や疑問や可能を示す意味タグを付与する文書データ構造生成手段と、前記文書データ構造生成手段で生成された前記意味タグの付与された文書データ構造を記憶する文書データ構造記憶手段と、ユーザにより指定される任意の数の単語と文書データ構造内の単語や文節の意味タグの組み合わせからなる概念表現を受け付ける概念表現指定手段と、前記文書データ構造記憶手段に記憶されている文書データ構造から、前記概念表現指定手段にて受け付けられた概念表現と関連のある概念表現を抽出する概念表現抽出手段とを備えたことを特徴とする文書処理装置である。
【0013】
請求項2の発明は、前記文書データ構造に基づいて選択指定対象の概念表現を表示する概念表現表示手段をさらに備え、前記概念表現指定手段は、前記概念表現表示手段に表示される概念表示から任意の概念表現の指定を受け付け、前記概念表現表示手段は、前記概念表現抽出手段での概念表現抽出結果を表示することを特徴とする請求項1に記載の文書処理装置である。
【0014】
請求項3の発明は、同義語辞書をさらに備え、前記文書データ構造生成手段は、前記同義語辞書に基づいて、同義異表記単語に対して代表表記情報を付加して前記文書データ構造を生成することを特徴とする請求項1または2に記載の文書処理装置である。
【0015】
請求項4の発明は、前記概念表現指定手段で受け付けた概念表現の履歴を保持する手段をさらに備え、当該履歴に基づいて、過去に行った概念表現指定に基づく概念表現抽出結果を前記概念表現表示手段に再表示することを特徴とする請求項2又は3に記載の文書処理装置である。
【0016】
請求項5の発明は、前記概念表現表示手段は、前記概念表現指定手段で受け付けた概念表現を含む前記文書データまたは当該文書データの一部を表示することを特徴とする請求項2乃至4のいずれか1項に記載の文書処理装置である。
【0017】
請求項6の発明は、前記概念表現抽出手段は、前記文書データ構造記憶手段に記憶されている文書データ構造が前記概念表現指定手段にて受け付けられた概念表現(以下、指定概念表現)に適合するか調べ、適合する文書データ構造から、前記指定概念表現中の単語と係り受け関係の単語を抽出するとともに、前記指定概念表現中にはない意味タグを抽出し、前記抽出した単語と意味タグを含む概念表現を作成することを特徴とする請求項1乃至5のいずれか1項に記載の文書処理装置である。
【0018】
以下、本発明の好適な実施の形態を添付図面に基づいて詳細に説明する。なお、以下に述べる実施の形態は、本発明の好適な実施の形態であるから、技術的に好ましい種々の限定が付されているが、本発明の範囲は、以下の説明において特に本発明を限定する旨の記載がない限り、これらの態様に限られるものではない。
【0019】
図1〜図14は、本発明の文書処理装置、文書処理方法及び記録媒体の一実施の形態を示す図であり、図1は、本発明の文書処理装置、文書処理方法及び記録媒体の一実施の形態を適用した文書処理装置1のブロック構成図である。
【0020】
図1において、文書処理装置1は、文書入力部2、言語解析部3、文書データ構造生成部4、文書データ構造記憶部5、概念表現抽出部6、概念表現指定部7及び概念表現表示8等を備えており、文書処理プログラム及び必要なデータを記録するCD−ROM(Compact Disc Read Only Memory)等の記録媒体を、例えば、コンピュータ等に読み取らせて導入することで、構築される。
【0021】
文書入力部(文書入力手段)2は、文書処理対象の文書を入力するもので、複数の文書を入力することができ、複数の文書を入力する際には、各文書に識別子を付与して、記憶部等に格納して管理する。なお、以下の説明では、文書入力部2から文書集合が入力されるものとして、説明する。
【0022】
言語解析部(言語解析手段)3は、文書入力部2から入力された各文書集合の形態素を解析する形態素解析処理、解析対象の文書の文節間の係り受け関係を解析する係り受け解析処理等の各ステップ処理を実行し、これらの形態素解析処理、係り受け解析処理等の解析処理によって得られる言語的属性を解析単位に文書データ構造生成部4に出力する。具体的には、言語解析部3は、形態素解析処理では、文書集合の各文書に含まれる単語を解析し、係り受け解析処理では、文書に含まれる文、文節を解析して、文節間の関係として係りと受けの関係にある文節を解析する。例えば、言語解析部3は、「ソフトウェアのインストールが正常に実行できない。」という文を解析する場合、図2に示すように、形態素解析を行った後、係り受け解析を行う。なお、図2は、上記例の解析結果例を示しており、単語の区切りを「/」で表し、また、各単語の上の「自」は自立語を、「付」は付属語を表している。すなわち、図2では、「ソフトウェア」という自立語に、「の」という付属語がついた文節1が係りとして、「インストール」という自立語に、「が」という付属語がついた文節2を受けとして係っており、「正常」という自立語に、「に」という付属語がついた文節3が係りとして、「実行」という自立語に、「でき」と「ない」の2つの付属語がついた文節4を受けとして係っており、さらに、文節2が係りとして、文節4に係っていることを示している。
【0023】
文書データ構造生成部(文書データ構造生成手段)4は、言語解析部3の解析結果に基づいて、文書集合の各文書を図3に示すようなデータ構造に変換し、各構成要素は、図4に示すような情報を保持する。文書データ構造生成部4は、例えば、図5に示すような文書あるいは文書集合に含まれる単語に対して、ユニークな識別子を付与した単語リストを生成して、単語の管理を行い、その際、品詞情報や全体における出現頻度あるいは出現文書数を算出して付加する。
【0024】
すなわち、文書集合の各文書の変換された図3に示すデータ構造は、図4に示すようになっており、文書は、文書に含まれる文IDリストを管理し、文は、自分の文IDと文に含まれる文節リストを管理する。また、文節は、自分の文節IDと文節に含まれる単語IDリスト、係り文節IDリスト、受け文節IDを管理する。この単語IDは、図5に示す単語リストにおけるIDであり、係り文節IDリストは、当該文節を受けとする係り文節のIDである。そして、1つの受け文節に対して複数の文節が係り文節となりうるので、係り文節IDリストで管理する。また、受け文節IDは、当該文節が係り文節となる受け文節のIDであり、係り文節は、受け文節を1つしかとることができない。
【0025】
また、文書データ構造生成部4は、文節が管理する情報として、係り受けの関係の種類、例えば、連体修飾なのか連用修飾なのか、等を保持することもでき、また、文節を結ぶ助詞の種類により関係の種類を記述することもできる。
【0026】
さらに、文書データ構造生成部4は、同義語辞書を有し、同義語を持つ単語に関して代表表記情報をもたせることができ、図5に示すように、単語リストの項目として同義語代表表記を持つことにより実現することができる。
【0027】
また、文書データ構造生成部4は、文節内の付属語表現等から文書データ構造内の単語あるいは文節に対して付加的な意味を表す意味タグを付与し、概念表現指定部7、概念表現抽出部6、概念表現表示部8において、概念表現として単語だけでなく意味タグをも用いることができるようにする。この意味タグは、文節内の付属語等が特定の付加的な意味を表している場合に、その意味をタグとして文節に付加するものである。例えば、「打消」、「要望」、「可能」、「疑問」の意味タグは、文節内に以下のような単語が出現した場合に、その文節に付加し、また、1つの文節に複数の意味タグがつくこともある。なお、以下の説明で意図タグは意味タグと同義である。
【0028】
意図タグID1「打消」:助動詞「ない」、助動詞「ず」、助動詞「まい」、補助助動詞「にくい」、形容詞「ない」
意図タグID2「要望」:助動詞「たい」、動詞「欲しい」、接続助詞「て」+動詞「欲しい」
意図タグID3「疑問」:終助詞「か」、終助詞「か」+終助詞「な」、記号「?」
意図タグID4「可能」:補助動詞「できる」、助動詞「れる」、助動詞「られる」
そして、概念表現では、たとえば「(+打消+可能)」といった表現で意味タグを表す。意味タグは、単独でも概念表現にもなるし、「実行(+可能+打消)」といったように単語に付加した形でも用いることができる。
【0029】
文書データ構造記憶部(文書データ構造記憶手段)5は、文書データ構造生成部4で生成された文書データ構造を記憶し、管理する。
【0030】
概念表現指定部(概念表現指定手段)7は、文字・記号等の入力部及びマウス等のポインティングディバイス等を備え、ユーザが概念表現を指定するものである。概念表現表示部(概念表現表示手段)8は、CRT(陰極線管:Cathode Ray Tube)、LCD(Liquid Crystal Display)等であり、概念表現抽出部6の抽出した概念表現、概念表現指定部7での概念表現の指定画面(概念ブラウザ)等の文書処理装置1が文書処理するにのに必要が各種データを表示する。
【0031】
概念表現指定部7での概念表現の指定方法としては、例えば、図6に示すような入力ダイアログを概念表現表示部8に表示してユーザが直接概念表現を記入する直接記入方法、図7〜図12に示すように、概念表現表示部8に概念表示画面(概念ブラウザ)を表示して、表示されている概念表現の中からマウス等のポインティングディバイスで指定する概念表現を選択する選択方法等を用いることができる。図7及び図8の例では、最初の状態として単語リストの情報を表示しており、ユーザが指定したい単語(図7では、「受信」が選択されている。)が選択されている。そして、図7及び図8で、概念表現の単語が選択されて、「絞り込み」ボタンが操作されると、その右側に、概念表現抽出を実行する。このように、選択方法を用いると、図6の場合の直接記入方法よりも、概念表現表示部8において、次に指定する概念表示を選択しながら繰り返し、概念表現の探索を行うことができ、効率的に概念表現を指定することができる。
【0032】
概念表現抽出部(概念表現抽出手段)6は、概念表現指定部7で指定された概念表現と強い関係にある概念表現(単語(自立語)あるいは意図タグ)を文書集合の各文書から抽出し、その頻度を算出して、概念表現抽出結果を概念表現表示部8に送って表示させる。
【0033】
次に、本実施の形態の作用を説明する。本実施の形態の文書処理装置1は、ユーザの指定に応じた概念表示に基づいて文書処理を行う。
【0034】
まず、本実施の形態の基本的な考え方である概念表現について説明する。本実施の形態で取り扱う文書は、基本的には日本語の文章で表現されているものとし、概念表現を、単語(自立語)を単位として表現する。単語1つでもある概念を表し、複数の単語の関係によってもある概念を表す。例えば、以下のような概念表現を用いる。
【0035】
1)検索
2)情報⇒検索
3)情報⇒検索⇒サービス
4)ソフトウェア⇒インストール(+可能+打消)
なお、「⇒」は、単語間に強い意味的関係があることを示しており、ここでいう強い意味的関係とは、同じ文節内に出現する単語(自立語)、または、係り受け関係にある文節対に出現する単語(自立語)を意味する。例えば、「情報⇒検索」は、以下に示すように、「情報」と「検索」が同じ文節内に出現するか、「情報」と「検索」が係り受け関係にある文節対に出現することを表している。
【0036】
文節 :「情報検索が」
係り受け文節対:「情報の」→「検索が」
また、「⇒」の方向は、単語の出現順序を表しており、出現順序が逆の場合、意味が異なってしまうこともあるため、語順は重要である。
【0037】
そして、概念表現では、単語(自立語)をいくつでもつなげて表現することができる。例えば、上記例の3)では、3つの単語をつないでいるが、この場合、この3つの単語が「情報」「検索」「サービス」の語順で連続して強い関係で現れていることを意味している。したがって、以下に示すAからDは、上記例の3)の概念表現に適合するが、E、Fは、適合しない。
【0038】
A:「情報の検索サービス」
B:「情報を検索するサービス」
C:「情報検索のサービス」
D:「情報検索サービス」
E:「情報検索を自動的に行うサービス」
F:「検索情報のサービス」
上記例4)では、意味タグを付加した例を示しており、意味タグは、文節内の付属語等の表現が特定の付加的な意味を表している場合に、その意味をタグとして利用するものである。例えば、「打消」「要望」「可能」「疑問」の意味タグは、文節内に以下のような単語が出現した場合にその文節に付加する。また、意味タグは、1つの文節に複数つくこともある。
【0039】
打消:助動詞「ない」、助動詞「ず」、助動詞「まい」、補助助動詞「にくい」、形容詞「ない」
要望:助動詞「たい」、動詞「欲しい」、接続助詞「て」+動詞「欲しい」
疑問:終助詞「か」、終助詞「か」+終助詞「な」、記号「?」
可能:補助動詞「できる」、助動詞「れる」、助動詞「られる」
そして、概念表現では、例えば、「(+打消+可能)」といった表現で意味タグを表し、意味タグは、単独でも概念表現にもなるし、「実行(+可能+打消)」といったように、単語に付加した形でも用いることができる。例えば、「実行できない」という文節は、「実行/できる/ない」と分かれるため、この文節には、「(+可能+打消)」という意味タグが付加される。また、「実行(+可能+打消)」という概念表現では、単語「実行」が意味タグ「打消」と「可能」が付加されている文節であることを意味している。
【0040】
このような概念表現を用いることで、ユーザは任意の数の単語(自立語)と意味タグの組み合わせにより、目的に沿った概念表現を表現することができる。
【0041】
そして、文書処理装置1は、例えば、いま、概念表現として、「FAX⇒受信(+打消)」が指定されている場合、概念抽出部6での概念抽出処理を、図13に示すように行う。
【0042】
文書処理装置1は、まず、文書データ構造内の文書ID:d=1の文書内の文ID:s=1内の文節ID:k=1の文節からスタートし(ステップS101)。文節k以降の構造が指定された概念表現と適合するかを調べる適合判断処理を行う(ステップS102)。上記例の場合、以下のような構造をもっていれば適合する。
【0043】
1)文節kが単語「FAX」、「受信」をこの語順で含み、かつ、文節kに意図タグ「打消」が付加されている。
【0044】
2)文節kが単語「FAX」を含み、かつ、文節kが係り文節となる受け文節k’が単語「受信」を含み、かつ受け文節k’に意図タグ「打消」が付加されている。
【0045】
ステップS102で、適合していないときには、文書処理装置1は、文ID:s=1内の文節IDkをインクリメント(k=k+1)して、次の文節に移り、適合判断処理に戻る(ステップS102)。
【0046】
ステップS102で、適合していると、概念表現抽出部6は、概念表現指定部7で指定された概念表現の前方で強い関係にある単語(自立語)を探し、自立語が見つかると、概念表現抽出結果リストに登録する(ステップS103)。
【0047】
この自立語としては、例えば、上記例の場合、以下のような単語が適合する。
【0048】
1)文節kが単語「FAX」の前に単語(自立語)Xを含む。
【0049】
2)文節kが受け文節となっている係り文節k’が存在し、文節k’に単語(自立語)Xが存在する。
【0050】
概念表現抽出部6は、このような単語(自立語)が見つかると、概念表現抽出結果リストに登録するが、この概念表現抽出結果リストには、指定された概念表現に新たに見つかった単語を付け加えた新しい概念表現を登録する。例えば、上記例の「FAX」に対して、新たに単語「カラー」が見つかった場合、概念表現抽出結果リストには、以下の概念表現を登録する。
【0051】
カラー⇒FAX⇒受信(+打消)
概念表現抽出結果リストには、図5に示したように、登録する概念表現の総出現頻度と出現文書数をも登録する。このとき、概念表現抽出部6は、登録する概念表現がすでに登録されている場合は、出現頻度に「1」を加え、処理中の文書からの登録が初めての場合は、出現文書数に「1」を加える。また、概念表現抽出部6は、概念表現を初めてリストに登録する場合は、出現頻度と出現文書数を「1」に設定する。
【0052】
次に、概念表現抽出部6は、概念表現指定部7で指定された概念表現の後方で強い関係にある単語(自立語)を探し、自立語が見つかると、概念表現抽出リストに登録する(ステップS104)。
【0053】
この自立語としては、例えば、上記例の場合、以下のような単語が適合する。
【0054】
3)文節kが単語「FAX」の後ろに単語(自立語)Xを含む。
【0055】
4)文節kが係り文節となっている受け文節k’が存在し、文節k’に単語(自立語)Xが存在する。
【0056】
概念表現抽出部6は、このような単語(自立語)が見つかると、概念表現抽出結果リストに登録するが、この概念表現抽出結果リストには、指定された概念表現に新たに見つかった単語を付け加えた新しい概念表現を登録する。例えば、上記例の「FAX」に対して、新たに単語「症状」が見つかった場合、概念表現抽出結果リストには、以下の概念表現を登録する。
【0057】
FAX⇒受信(+打消)⇒症状
概念表現抽出部6は、概念表現抽出結果リストに、図5に示したように、登録する概念表現の総出現頻度と出現文書数をも登録する。このとき、概念表現抽出部6は、登録する概念表現がすでに登録されている場合は、出現頻度に「1」を加え、処理中の文書からの登録が初めての場合は、出現文書数に「1」を加える。また、概念表現抽出部6は、初めてリストに登録する場合は、出現頻度と出現文書数を「1」に設定する。
【0058】
次に、概念表現抽出部6は、指定された概念表現と適合する文書データ構造の一番後ろの文節に、指定された概念表現とは適合しない意味タグが付加されているかを調べ、このような意味タグが見つかると、概念表現抽出結果リストに登録する(ステップS105)。
【0059】
このような意味タグとしては、例えば、上記例の概念表現「FAX⇒受信(+打消)」の場合、概念表現抽出部6は、指定された概念表現と適合する文書データ構造の一番後ろの文節k’に、「打消」以外の意味タグが付いている場合は、その意味タグXを抽出する。概念表現抽出部6は、このような意味タグが見つかった場合は、概念表現抽出結果リストに登録するが、概念表現抽出結果リストには、指定された概念表現に新たに見つかった意味タグを付け加えた新しい概念表現を登録する。例えば、上記例で、新たに意味タグ「可能」が見つかった場合、概念表現抽出結果リストには、以下の概念表現を登録する。
【0060】
FAX⇒受信(+打消+可能)
また、概念表現抽出部6は、意味タグが複数抽出された場合は、それぞれを付加した形の複数の概念表現を登録する。概念表現抽出結果リストでは、登録する概念表現の総出現頻度と出現文書数をも登録する。このとき、概念表現抽出部6は、登録する概念表現が既に登録されている場合は、出現頻度に「1」を加え、処理中の文書からの登録が初めての場合は、出現文書数に「1」を加える。また、概念表現抽出部6は、概念表現を初めてリストに登録する場合は、出現頻度と出現文書数を「1」に設定する。
【0061】
次に、概念表現抽出部6は、文節ID:k(文節k)が文ID:s(文s)内の最後の文節であるかチェックし(ステップS106)、文節kが文s内の最後の文節でないときには、文節kを「1」だけインクリメント(k=k+1)して、ステップS102に戻って、次の文節について、上記適合判断処理から上記同様に処理する(ステップS102〜S106)。
【0062】
ステップS106で、文節kが文s内の最後の文節であるときには、概念表現抽出部6は、文ID:s(文s)が文書ID:d(文書d)内の最後の文であるかチェックし(ステップS107)、文sが文書d内の最後の文でないときには、文sを「1」だけインクリメント(s=s+1)して、ステップS102に戻って、次の文ついて、上記適合判断処理から上記同様に処理する(ステップS102〜S107)。
【0063】
ステップS107で、文sが文書d内の最後の文であるときには、概念表現抽出部6は、文書ID:d(文書d)が最後の文書であるかチェックし(ステップS108)、最後の文でないときには、文dを「1」だけインクリメント(d=d+1)して、ステップS102に戻り、次の文節について、上記適合判断処理から上記同様に処理する(ステップS102〜S108)。
【0064】
ステップS108で、文書dが最後の文書であるときには、概念表現抽出部6は、全ての文書について概念抽出処理を完了したと判断して、処理を終了する。
【0065】
そして、文書処理装置1は、概念表現抽出部6で抽出された結果を、上記図7〜図12に示したように、概念表現表示部8に表示する。文書処理装置1は、まず、図7及び図8に示したように、文書データ構造生成部4が生成した単語リスト(図5参照)を最初に左側に表示し、ユーザが概念表現指定部8で指定された単語を指定概念表現として概念表現抽出を行った結果を右側に表示している。また、概念抽出結果の表示では、図7に示す単語による絞り込みと、図8に示す意図タグによる絞り込みの2種類を選択して表示する。さらに、文書処理装置1では、概念表現表示部8に概念表現抽出結果として表示されている概念表現をユーザが選択すると、当該選択された概念表現を指定概念表現として、さらに概念表現抽出を行うこともできる。このように概念表現抽出を繰り返し行うことができる。
【0066】
また、文書処理装置1は、図9及び図10に示したように、最初に意図タグリストをも左側に表示し、ユーザが概念表現指定部8で指定された意図タグを指定意図タグとして抽出を行った結果を右側に表示している。また、抽出結果の表示では、図9に示す単語による絞り込みと、図10に示す意図タグによる絞り込みの2種類を選択して表示する。さらに、文書処理装置1では、概念表現表示部8に概念表現抽出結果として表示されている概念表現をユーザが選択すると、当該選択された概念表現を指定概念表現として、さらに概念表現抽出を行うこともできる。このように概念表現抽出を繰り返し行うことができる。
【0067】
さらに、文書処理装置1は、図11及び図12に示したように、ユーザが指定した概念表現を記憶しておき、そのリストを表示する。この場合も、図11に示すような単語と、図12に示すような意図タグについて、表示する。
【0068】
また、図7〜図12の表示において、ユーザからの表記入力を受け、その表記を含む概念表現だけを表示させることもでき、これにより必要な情報だけをユーザは見ることができる。
【0069】
さらに、文書処理装置1は、図14に示すように、指定された概念表現を含む文書リストを表示する。すなわち、文書処理装置1は、概念表現抽出部6において、概念表現指定部7で指定された概念表現を含む文書を記録し、この記憶した文書をもとに概念表現表示部8に表示する。
【0070】
このように、本実施の形態の文書処理装置1は、文書入力部2から入力された文書(文書集合)に対して、言語解析部3で形態素解析、係り受け解析を行い、文書データ構造生成部4で、文書を言語解析部3での言語解析結果に基づいて言語情報を保持する文書データ構造に変換して、当該生成された文書データ構造を文書データ構造記憶部5に記憶し、概念表現指定部7で任意の概念表現の指定入力が行われると、概念表現抽出部6で、文書データ構造記憶部5に記憶されている文書データ構造から概念表現指定部7で指定された概念表現と強い関係にある概念表現を抽出して、当該概念表現抽出結果を概念表現表示部8で表示している。
【0071】
したがって、ユーザが文書に含まれる概念表現内を自由に探索して、特徴的ではないが、必要とする概念表現を発見することができ、利用性を向上させることができる。
【0072】
また、本実施の形態の文書処理装置1は、文書入力部2から入力された文書に対して、言語解析部3で、形態素解析、係り受け解析を行い、文書データ構造生成部4で、文書を当該言語解析部3での言語解析結果に基づいて言語情報を保持する文書データ構造に変換して、文書データ構造生成部4で生成された文書データ構造を文書データ構造記憶部5に記憶し、当該文書データ構造に基づいて選択指定対象の概念表現を概念表現表示部8に表示して、概念表現指定部7で、当該概念表現表示部8に表示される概念表示から任意の概念表現の選択指定が行われると、概念表現抽出部6で、文書データ構造記憶部5に記憶されている文書データ構造から概念表現指定手段で指定された概念表現と強い関係にある概念表現を抽出して、概念表現表示部8に当該概念表現抽出結果を表示している。
【0073】
したがって、表示される概念表現から適宜選択できるようにすることができるとともに、ユーザが文書に含まれる概念表現内を自由に探索して、特徴的ではないが、必要とする概念表現を簡単かつ容易に発見することができ、より一層利用性を向上させることができる。
【0074】
さらに、本実施の形態の文書処理装置1は、文書データ構造生成部4が、同義語辞書に基づいて、同義異表記単語に対して代表表記情報を付加して文書データ構造を生成している。
【0075】
したがって、意味は同じであるが異なる表記の単語を同じ単語として取り扱えるようにすることができ、ユーザが文書に含まれる概念表現内をより一層自由に探索して、特徴的ではないが、必要とする概念表現をより一層容易に発見できるようにすることができ、より一層利用性を向上させることができる。
【0076】
また、本実施の形態の文書処理装置1は、文書データ構造生成部4で、文節内の付属語表現等から文書データ構造内の単語または文節に対して付加的な意味を表す意味タグを、概念表現指定部7での概念表現の指定、概念表現抽出部6での概念表現の抽出及び概念表現表示部8での概念表現の表示として、用いている。
【0077】
したがって、より詳細な意味の指定を行えるようにすることができ、必要とする概念表現をより一層適切に発見できるようにして、より一層利用性を向上させることができる。
【0078】
さらに、本実施の形態の文書処理装置1は、概念表現指定部7での概念表現の指定の履歴を保持し、当該履歴に基づいて、過去に行った概念表現指定に基づく概念表現抽出結果を概念表現表示部8に再表示している。
【0079】
したがって、ユーザが過去に行った作業状態にすぐに戻ることができ、より一層利用性を向上させることができる。
【0080】
また、本実施の形態の文書処理装置1は、概念表現指定部7で指定された概念表現を含む文書または当該文書の一部を概念表現表示部8に表示している。
【0081】
したがって、ユーザの指定した概念表現が実際の文書内でどのように現れるかを知ることができるようにすることができ、概念表現に対する理解をより一層深めて、より一層利用性を向上させることができる。
【0082】
以上、本発明者によってなされた発明を好適な実施の形態に基づき具体的に説明したが、本発明は上記のものに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。
【0083】
【発明の効果】
本発明によれば、ユーザが文書に含まれる概念表現内を自由に探索して、特徴的ではないが、必要とする概念表現を発見することができ、利用性を向上させることができる。特に、文節内の自立語や付属語に基づき、文書データ構造内の単語または文節に対して付加的な意味を表す意味タグ、すなわち、「打消」「要望」「疑問」「可能」等を付与し、当該意味タグを、概念表現の指定、概念表現の抽出、概念表現の表示などとして用いるので、より詳細な意味の指定を行えるようにすることができ、必要とする概念表現をより一層適切に発見できるようにして、より一層利用性を向上させることができる。
【図面の簡単な説明】
【図1】本発明の文書処理装置、文書処理方法及び記録媒体の一実施の形態を適用した文書処理装置の要部ブロック構成図。
【図2】図1の言語解析部での言語解析の一例を示す図。
【図3】図1の文書データ構造生成部による文書集合の各文書のデータ構造への変換の一例を示す図。
【図4】図3の各データ構造の各構成要素の情報の一例を示す図。
【図5】図1の文書データ構造生成部により生成される文書あるいは文書集合に含まれる単語リストに対して付与するID、品詞、出現頻度、出現文書数及び同義語代表表記の一例を示す図。
【図6】ユーザが概念表現を直接入力して指定する場合の概念表現表示部に表示される画面の一例を示す図。
【図7】ユーザが概念表現を単語で選択指定して単語で絞り込みを行う場合の概念表現表示部に表示される画面の一例を示す図。
【図8】ユーザが概念表現を単語で選択指定して意図タグで絞り込みを行う場合の概念表現表示部に表示される画面の一例を示す図。
【図9】ユーザが意図タグで選択指定して単語で絞り込みを行う場合の概念表現表示部に表示される画面の一例を示す図。
【図10】ユーザが意図タグで選択指定して意図タグで絞り込みを行う場合の概念表現表示部に表示される画面の一例を示す図。
【図11】ユーザが履歴を選択指定して単語で絞り込みを行う場合の概念表現表示部に表示される画面の一例を示す図。
【図12】ユーザが履歴を選択指定して意図タグで絞り込みを行う場合の概念表現表示部に表示される画面の一例を示す図。
【図13】図1の文書処理装置による概念抽出処理を示すフローチャート。
【図14】概念表現表示部への指定された概念表現を含む文書リストの表示画面の一例を示す図。
【符号の説明】
1 文書処理装置
2 文書入力部
3 言語解析部
4 文書データ構造生成部
5 文書データ構造記憶部
6 概念表現抽出部
7 概念表現指定部
8 概念表現指定部[0001]
BACKGROUND OF THE INVENTION
The present inventionDocument processing deviceIn detail, it helps the user to find out the conceptual expression that the user needs by searching and narrowing down the conceptual expression contained in the document or document collectionDocument processing device.
[0002]
[Prior art]
Recently, computerization of information has progressed, and documents conventionally stored in paper documents have also been digitized. Along with the digitization of such documents, a large number of digitized documents are distributed, and how to manage and easily reuse collected and accumulated digitized documents has become an important issue. In this case, an analysis technique for finding some knowledge from a large amount of electronic documents is desired. This analysis technology is a technology that grasps the contents of each group of documents while grouping a large number of documents by document content. Conventionally, user-driven input of group definition formulas and search technology There have been proposed a method of grouping by using a method of automatically grouping using a clustering technique based on the co-occurrence of words in a document.
[0003]
Conventionally, as a grouping technique, for example, “Data analysis system” of
[0004]
Conventionally, a document processing apparatus disclosed in
[0005]
That is, this prior art performs word analysis and dependency analysis from text, groups sentences according to the similarity of sentence structures, and correlates from the correlation between the number of appearances of keywords extracted from text and grouped sentences. Extracting strong items.
[0006]
[Patent Document 1]
JP 2001-75966 A
[Patent Document 2]
JP 2000-172691 A
[0007]
[Problems to be solved by the invention]
However, in such a conventional technique, in order to allow a user to freely search for and discover a concept included in a document or a document collection, the discovery of a concept important for analyzing document data can be performed. There was a need for improvement.
[0008]
That is, in the prior art described in
[0009]
Moreover, in the prior art described in
[0010]
However, in the analysis of document data, especially in the analysis of data such as questionnaires, even a concept that is not characteristic, for example, a concept that is not frequent, may be a concept that a user needs for analysis. In the case of such a concept, whether or not it is necessary depends on the user's intention and purpose, and it is difficult to automatically extract it. Therefore, in order to support the discovery of such a concept, it is necessary to assist the user in freely searching for and discovering the concept included in the document or document set.
[0011]
Therefore, the present invention supports a user to search a conceptual expression included in a document or a document set while performing search or narrowing down and find a conceptual expression required by the user.Provide a document processing deviceThe purpose is that.
[0012]
[Means for Solving the Problems]
The invention according to
[0013]
The invention of
[0014]
The invention of
[0015]
The invention of
[0016]
The invention according to
[0017]
According to the invention of claim 6, the concept expression extracting means conforms to a concept expression (hereinafter referred to as designated concept expression) in which the document data structure stored in the document data structure storage means is received by the concept expression specifying means. And extracting from the matching document data structure a word in the specified conceptual expression and a dependency-related word, extracting a semantic tag not in the specified conceptual expression, and extracting the extracted word and the semantic tag The document processing apparatus according to
[0018]
DESCRIPTION OF EXEMPLARY EMBODIMENTS Hereinafter, preferred embodiments of the invention will be described in detail with reference to the accompanying drawings. The embodiments described below are preferred embodiments of the present invention, and thus various technically preferable limitations are given. However, the scope of the present invention is particularly limited in the following description. As long as there is no description which limits, it is not restricted to these aspects.
[0019]
1 to 14 are diagrams showing an embodiment of a document processing apparatus, a document processing method, and a recording medium according to the present invention. FIG. 1 is an example of a document processing apparatus, a document processing method, and a recording medium according to the present invention. It is a block block diagram of the
[0020]
In FIG. 1, the
[0021]
The document input unit (document input means) 2 inputs a document to be processed, and can input a plurality of documents. When inputting a plurality of documents, an identifier is assigned to each document. And stored in a storage unit or the like. In the following description, it is assumed that a document set is input from the
[0022]
The language analysis unit (language analysis means) 3 is a morpheme analysis process for analyzing the morpheme of each document set input from the
[0023]
The document data structure generation unit (document data structure generation means) 4 converts each document in the document set into a data structure as shown in FIG. 3 based on the analysis result of the
[0024]
That is, the converted data structure shown in FIG. 3 for each document in the document set is as shown in FIG. 4. The document manages a sentence ID list included in the document, and the sentence is its own sentence ID. To manage the phrase list included in the sentence. The phrase manages its own phrase ID, a word ID list included in the phrase, a related phrase ID list, and a received phrase ID. This word ID is an ID in the word list shown in FIG. 5, and the related phrase ID list is an ID of a related phrase that receives the relevant phrase. Since a plurality of clauses can be related clauses for one received clause, they are managed by the related clause ID list. The received clause ID is an ID of a received clause in which the relevant clause becomes a related clause, and the related clause can take only one received clause.
[0025]
In addition, the document data
[0026]
Further, the document data
[0027]
Further, the document data
[0028]
In the conceptual expression, for example, the meaning tag is represented by an expression “(+ cancellation + possible)”. The meaning tag can be used alone or as a conceptual expression, or can be used in a form added to a word such as “execution (+ possible + cancellation)”.
[0029]
The document data structure storage unit (document data structure storage unit) 5 stores and manages the document data structure generated by the document data
[0030]
The concept expression specifying unit (concept expression specifying means) 7 includes an input unit for characters / symbols, a pointing device such as a mouse, and the like, and the user specifies the concept expression. The concept expression display unit (concept expression display means) 8 is a CRT (Cathode Ray Tube), an LCD (Liquid Crystal Display), or the like. The concept expression extraction unit 6 extracts the concept expression and the concept
[0031]
As a method of designating the concept expression in the concept
[0032]
The concept expression extraction unit (concept expression extraction means) 6 extracts a concept expression (word (independent word) or intention tag) having a strong relationship with the concept expression specified by the concept
[0033]
Next, the operation of the present embodiment will be described. The
[0034]
First,This embodimentThe concept expression, which is the basic concept of, will be explained. Documents handled in the present embodiment are basically expressed in Japanese sentences, and conceptual expressions are expressed in units of words (independent words). A single word represents a concept, and a plurality of words represent a concept. For example, the following conceptual expression is used.
[0035]
1) Search
2) Information ⇒ Search
3) Information ⇒ Search ⇒ Service
4) Software ⇒ Install (+ possible + cancel)
Note that “⇒” indicates that there is a strong semantic relationship between words, and the strong semantic relationship here is a word that appears in the same phrase (an independent word) or a dependency relationship. It means a word (independent word) that appears in a phrase pair. For example, “information ⇒ search” means that “information” and “search” appear in the same phrase, or “information” and “search” appear in a phrase pair that has a dependency relationship, as shown below. Represents.
[0036]
Sentence : "Information search"
Dependent clause pair: “Information” → “Search”
Also, the direction of “⇒” represents the order of appearance of words, and if the order of appearance is reversed, the meaning may be different, so the word order is important.
[0037]
And in the concept expression, it is possible to connect and express any number of words (independent words). For example, in the above example 3), three words are connected. In this case, the three words appear in a strong relationship continuously in the word order of “information” “search” “service”. is doing. Therefore, A to D shown below conform to the conceptual expression of 3) in the above example, but E and F do not conform.
[0038]
A: "Information search service"
B: "Information search service"
C: "Information search service"
D: "Information search service"
E: “Service that automatically searches for information”
F: “Search Information Service”
The above example 4) shows an example in which a semantic tag is added, and the semantic tag uses the meaning as a tag when an expression such as an attached word in the phrase represents a specific additional meaning. Is. For example, the meaning tags “cancellation”, “request”, “possible”, and “question” are added to the phrase when the following words appear in the phrase. A plurality of semantic tags may be attached to one phrase.
[0039]
Cancellation: Auxiliary verb "None", Auxiliary verb "Zu", Auxiliary verb "Mai", Auxiliary auxiliary verb "Hard", Adjective "None"
Request: auxiliary verb "tai", verb "wanted", connecting particle "te" + verb "wanted"
Question: Final particle "ka", final particle "ka" + final particle "na", symbol "?"
Possible: auxiliary verb “can”, auxiliary verb “re”, auxiliary verb “re”
In the conceptual expression, for example, the meaning tag is represented by an expression such as “(+ cancellation + possible)”, and the meaning tag can be a concept expression alone or “execution (+ possible + cancellation)”. It can also be used in the form of words. For example, a phrase “unexecutable” is divided into “executable / can / cannot”, and a semantic tag “(+ possible + cancellation)” is added to this clause. The conceptual expression “execution (+ possible + cancellation)” means that the word “execution” is a phrase to which the semantic tags “cancellation” and “possibility” are added.
[0040]
By using such a concept expression, the user can express a concept expression according to the purpose by a combination of an arbitrary number of words (independent words) and a semantic tag.
[0041]
Then, for example, when “FAX → reception (+ cancellation)” is designated as the concept expression, the
[0042]
First, the
[0043]
1) The phrase k includes the words “FAX” and “receive” in this order, and the intention tag “cancel” is added to the phrase k.
[0044]
2) The phrase “k” includes the word “FAX”, the receiving clause k ′ in which the clause k is a related clause includes the word “reception”, and the intention tag “cancel” is added to the receiving clause k ′.
[0045]
If the document ID does not match in step S102, the
[0046]
In step S102, the concept expression extraction unit 6 searches for a word (independent word) that has a strong relationship in front of the concept expression specified by the concept
[0047]
For example, in the case of the above example, the following words are suitable as the independent words.
[0048]
1) The phrase k includes the word (independent word) X before the word “FAX”.
[0049]
2) There is a related clause k 'in which the clause k is a receiving clause, and a word (independent word) X exists in the clause k'.
[0050]
When such a word (independent word) is found, the concept expression extraction unit 6 registers it in the concept expression extraction result list. In this concept expression extraction result list, a word newly found in the designated concept expression is registered. Register the added new conceptual expression. For example, when the word “color” is newly found for “FAX” in the above example, the following concept expressions are registered in the concept expression extraction result list.
[0051]
Color ⇒ FAX ⇒ Receive (+ Cancel)
In the concept expression extraction result list, as shown in FIG. 5, the total appearance frequency and the number of appearing documents of the registered concept expressions are also registered. At this time, the concept expression extraction unit 6 adds “1” to the appearance frequency when the concept expression to be registered has already been registered, and adds “1” to the number of appearing documents when registration from the document being processed is the first time. Add 1 ”. Further, when the concept expression is registered in the list for the first time, the concept expression extracting unit 6 sets the appearance frequency and the number of appearing documents to “1”.
[0052]
Next, the concept expression extraction unit 6 searches for a word (independent word) having a strong relationship behind the concept expression specified by the concept
[0053]
For example, in the case of the above example, the following words are suitable as the independent words.
[0054]
3) The phrase k includes the word (independent word) X after the word “FAX”.
[0055]
4) There is a receiving clause k 'in which the clause k is a related clause, and a word (independent word) X exists in the clause k'.
[0056]
When such a word (independent word) is found, the concept expression extraction unit 6 registers it in the concept expression extraction result list. In this concept expression extraction result list, a word newly found in the designated concept expression is registered. Register the added new conceptual expression. For example, when the word “symptom” is newly found for “FAX” in the above example, the following concept expressions are registered in the concept expression extraction result list.
[0057]
FAX-> reception (+ cancellation)-> symptoms
As shown in FIG. 5, the concept expression extraction unit 6 also registers the total appearance frequency and the number of appearance documents of the registered concept expression in the concept expression extraction result list. At this time, the concept expression extraction unit 6 adds “1” to the appearance frequency when the concept expression to be registered has already been registered, and adds “1” to the number of appearing documents when registration from the document being processed is the first time. Add 1 ”. Further, when registering for the first time in the list, the concept expression extracting unit 6 sets the appearance frequency and the number of appearing documents to “1”.
[0058]
Next, the concept expression extraction unit 6 checks whether a semantic tag that does not match the specified concept expression is added to the last clause of the document data structure that matches the specified concept expression. If a meaning tag is found, it is registered in the concept expression extraction result list (step S105).
[0059]
As such a semantic tag, for example, in the case of the concept expression “FAX⇒receive (+ cancellation)” in the above example, the concept expression extraction unit 6 uses the rearmost document data structure that matches the designated concept expression. If the phrase k ′ has a meaning tag other than “cancel”, the meaning tag X is extracted. When such a semantic tag is found, the conceptual expression extraction unit 6 registers it in the conceptual expression extraction result list, but adds a newly found semantic tag to the specified conceptual expression. Register new conceptual expressions. For example, in the above example, when a new semantic tag “possible” is found, the following concept expressions are registered in the concept expression extraction result list.
[0060]
FAX⇒Receive (+ Cancel + Possible)
Further, when a plurality of semantic tags are extracted, the concept expression extraction unit 6 registers a plurality of concept expressions in a form to which each is added. In the concept expression extraction result list, the total appearance frequency and the number of appearing documents of the registered concept expressions are also registered. At this time, the concept expression extraction unit 6 adds “1” to the appearance frequency when the concept expression to be registered has already been registered, and adds “1” to the number of appearing documents when registration from the document being processed is the first time. Add 1 ”. Further, when the concept expression is registered in the list for the first time, the concept expression extracting unit 6 sets the appearance frequency and the number of appearing documents to “1”.
[0061]
Next, the conceptual expression extraction unit 6 checks whether the phrase ID: k (sentence k) is the last phrase in the sentence ID: s (sentence s) (step S106), and the phrase k is the last in the sentence s. If it is not, the phrase k is incremented by “1” (k = k + 1), the process returns to step S102, and the next phrase is processed in the same manner as described above from the matching determination process (steps S102 to S106).
[0062]
When the phrase k is the last phrase in the sentence s in step S106, the conceptual expression extraction unit 6 determines whether the sentence ID: s (sentence s) is the last sentence in the document ID: d (document d). When the check is made (step S107) and the sentence s is not the last sentence in the document d, the sentence s is incremented by “1” (s = s + 1), the process returns to step S102, and the above-mentioned conformity determination is made for the next sentence. From the processing, the same processing as above is performed (steps S102 to S107).
[0063]
When the sentence s is the last sentence in the document d in step S107, the conceptual expression extraction unit 6 checks whether the document ID: d (document d) is the last document (step S108), and the last sentence. If not, the sentence d is incremented by “1” (d = d + 1), the process returns to step S102, and the next phrase is processed in the same manner as described above from the matching determination process (steps S102 to S108).
[0064]
If the document d is the last document in step S108, the concept expression extraction unit 6 determines that the concept extraction process has been completed for all the documents, and ends the process.
[0065]
Then, the
[0066]
Further, as shown in FIGS. 9 and 10, the
[0067]
Further, as shown in FIGS. 11 and 12, the
[0068]
In addition, in the display of FIGS. 7 to 12, it is possible to receive only a notation input from the user and display only a conceptual expression including the notation, whereby the user can see only necessary information.
[0069]
Further, as shown in FIG. 14, the
[0070]
As described above, the
[0071]
Therefore, the user can freely search the concept expression included in the document to find the necessary concept expression which is not characteristic but can improve the usability.
[0072]
Further, the
[0073]
Therefore, it is possible to appropriately select from the displayed conceptual expressions, and the user can freely search through the conceptual expressions included in the document and easily and easily find the necessary conceptual expressions that are not characteristic. It can be discovered in a while, and the usability can be further improved.
[0074]
Furthermore, in the
[0075]
Therefore, it is possible to handle words having the same meaning but different notations as the same word, and the user can search the concept expression included in the document more freely and is not characteristic but necessary. It is possible to more easily find the concept expression to be performed, and the usability can be further improved.
[0076]
Further, in the
[0077]
Therefore, it is possible to specify a more detailed meaning, and to more appropriately find a necessary concept expression, thereby further improving usability.
[0078]
Furthermore, the
[0079]
Therefore, it is possible to immediately return to the work state performed by the user in the past, and the usability can be further improved.
[0080]
Further, the
[0081]
Therefore, it is possible to know how the concept expression specified by the user appears in the actual document, and it is possible to deepen the understanding of the concept expression and further improve the usability. it can.
[0082]
The invention made by the present inventor has been specifically described based on the preferred embodiments. However, the present invention is not limited to the above, and various modifications can be made without departing from the scope of the invention. Needless to say.
[0083]
【The invention's effect】
According to the present invention, a user can freely search within a conceptual expression included in a document to find a conceptual expression that is not characteristic but is necessary, and can improve usability. In particular,Based on independent words and ancillary words in the phrase, Semantic tags that represent additional meaning for words or phrases in the document data structure,That is,"Cancellation", "request", "question", "possible", etc. are given and the meaning tag is used for specifying the concept expression, extracting the concept expression, displaying the concept expression, etc., so that more detailed meaning can be specified It is possible to improve the usability by making it possible to find the necessary concept expression more appropriately.
[Brief description of the drawings]
FIG. 1 is a block diagram of a main part of a document processing apparatus to which an embodiment of a document processing apparatus, a document processing method, and a recording medium of the present invention is applied.
FIG. 2 is a diagram illustrating an example of language analysis in a language analysis unit in FIG. 1;
FIG. 3 is a diagram showing an example of conversion of a document set into a data structure of each document by the document data structure generation unit in FIG. 1;
4 is a diagram showing an example of information on each component of each data structure in FIG. 3;
5 is a diagram showing an example of ID, part of speech, appearance frequency, number of appearance documents, and synonym representative notation given to a word list included in a document or document set generated by the document data structure generation unit in FIG. 1; .
FIG. 6 is a diagram illustrating an example of a screen displayed on a concept expression display unit when a user directly inputs and specifies a concept expression.
FIG. 7 is a diagram illustrating an example of a screen displayed on a concept expression display unit when a user selects and designates a concept expression by word and narrows down by word.
FIG. 8 is a diagram showing an example of a screen displayed on a concept expression display unit when a user selects and designates a concept expression with a word and narrows down with an intention tag.
FIG. 9 is a diagram showing an example of a screen displayed on the concept expression display unit when the user selects and specifies with an intention tag and narrows down with words.
FIG. 10 is a diagram illustrating an example of a screen displayed on a concept expression display unit when a user selects and designates with an intention tag and narrows down with the intention tag.
FIG. 11 is a diagram showing an example of a screen displayed on the conceptual expression display unit when a user selects and specifies a history and narrows down by word.
FIG. 12 is a diagram showing an example of a screen displayed on the concept expression display unit when a user selects and specifies a history and narrows down with an intention tag.
13 is a flowchart showing concept extraction processing by the document processing apparatus of FIG. 1;
FIG. 14 is a diagram showing an example of a display screen of a document list including a designated concept expression on a concept expression display unit.
[Explanation of symbols]
1 Document processing device
2 Document input part
3 Language Analysis Department
4 Document data structure generator
5 Document data structure storage
6 Conceptual expression extraction unit
7 Conceptual expression designation part
8 Conceptual expression designation part
Claims (6)
前記言語解析手段における言語解析結果に基づいて、前記文書データの言語情報を保持する文書データ構造を生成するとともに、文節内に特定の自立語又は付属語が出現した場合に、前記文書データ構造内の単語や文節に対して、前記出現した特定の自立語又は付属語に応じて打消や要望や疑問や可能を示す意味タグを付与する文書データ構造生成手段と、
前記文書データ構造生成手段で生成された前記意味タグの付与された文書データ構造を記憶する文書データ構造記憶手段と、
ユーザにより指定される任意の数の単語と文書データ構造内の単語や文節の意味タグの組み合わせからなる概念表現を受け付ける概念表現指定手段と、
前記文書データ構造記憶手段に記憶されている文書データ構造から、前記概念表現指定手段にて受け付けられた概念表現と関連のある概念表現を抽出する概念表現抽出手段と、
を備えたことを特徴とする文書処理装置。Language analysis means for performing morphological analysis and dependency analysis on input document data;
Based on the result of language analysis in the language analysis means, a document data structure that holds the language information of the document data is generated, and when a specific independent word or ancillary word appears in a phrase, the document data structure Document data structure generating means for giving a meaning tag indicating cancellation, request, question or possibility according to the specific independent word or appendage that has appeared ,
Document data structure storage means for storing the document data structure to which the semantic tag is generated generated by the document data structure generation means;
A concept expression specifying means for accepting a concept expression consisting of a combination of an arbitrary number of words specified by the user and a word or phrase semantic tag in the document data structure;
A concept expression extracting means for extracting a concept expression related to the concept expression received by the concept expression specifying means from the document data structure stored in the document data structure storage means;
A document processing apparatus comprising:
前記概念表現指定手段は、前記概念表現表示手段に表示される概念表示から任意の概念表現の指定を受け付け、
前記概念表現表示手段は、前記概念表現抽出手段での概念表現抽出結果を表示すること
を特徴とする請求項1に記載の文書処理装置。Further comprising a concept expression display means for displaying a concept expression to be selected and specified based on the document data structure,
The concept expression designation means accepts designation of an arbitrary concept expression from the concept display displayed on the concept expression display means,
The document processing apparatus according to claim 1, wherein the concept expression display unit displays a concept expression extraction result obtained by the concept expression extraction unit.
前記文書データ構造生成手段は、前記同義語辞書に基づいて、同義異表記単語に対して代表表記情報を付加して前記文書データ構造を生成することを特徴とする請求項1または2に記載の文書処理装置。A synonym dictionary
3. The document data structure generating unit generates the document data structure by adding representative notation information to synonym / notation words based on the synonym dictionary. Document processing device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002258596A JP4046221B2 (en) | 2002-09-04 | 2002-09-04 | Document processing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002258596A JP4046221B2 (en) | 2002-09-04 | 2002-09-04 | Document processing device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004094855A JP2004094855A (en) | 2004-03-25 |
JP4046221B2 true JP4046221B2 (en) | 2008-02-13 |
Family
ID=32063171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002258596A Expired - Fee Related JP4046221B2 (en) | 2002-09-04 | 2002-09-04 | Document processing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4046221B2 (en) |
-
2002
- 2002-09-04 JP JP2002258596A patent/JP4046221B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004094855A (en) | 2004-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3266586B2 (en) | Data analysis system | |
US20020002547A1 (en) | Information retrieval apparatus and information retrieval method | |
JP2007334894A (en) | Visualization within context of source document for annotation of document | |
JP2009169541A (en) | Web page retrieval server and query recommendation method | |
JP4967037B2 (en) | Information search device, information search method, terminal device, and program | |
JP4499179B1 (en) | Terminal device | |
JP4361299B2 (en) | Evaluation expression extraction apparatus, program, and storage medium | |
JP4953440B2 (en) | Morphological analysis device, morphological analysis method, morphological analysis program, and recording medium storing computer program | |
JP4046221B2 (en) | Document processing device | |
JP4378106B2 (en) | Document search apparatus, document search method and program | |
JP4877930B2 (en) | Document processing apparatus and document processing method | |
JP2008204133A (en) | Answer search apparatus and computer program | |
JPH11259524A (en) | Information retrieval system, information processing method in information retrieval system and record medium | |
JP4248828B2 (en) | Document processing apparatus, document processing method, and recording medium | |
JP2009104475A (en) | Similar document retrieval device, and similar document retrieval method and program | |
JP2005158044A (en) | Apparatus, method and program for information retrieval, and computer-readable recording medium stored with this program | |
JP2000105769A (en) | Document display method | |
JP4300056B2 (en) | CONCEPT EXPRESSION GENERATION METHOD, PROGRAM, STORAGE MEDIUM, AND CONCEPT EXPRESSION GENERATION DEVICE | |
JP2009059290A (en) | Device, method, and program for supporting preparation of foreign language document | |
JP2003099429A (en) | Glossary generation device, glossary generation program and glossary retrieval device | |
JP5691558B2 (en) | Example sentence search device, processing method, and program | |
JPH1145249A (en) | Information retrieval device and computer-readable recording medium where program for making computer function as same device is recorded | |
JP2003263458A (en) | Method and device for analyzing text | |
JP2003178057A (en) | Phrase producing device, phrase producing method, and program | |
JPH03229367A (en) | Text base retrieving system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050223 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20050622 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050622 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070418 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070618 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070704 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070903 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20070913 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071114 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071115 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101130 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111130 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111130 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121130 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131130 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |