JP5066147B2 - 文書処理装置およびプログラム - Google Patents

文書処理装置およびプログラム Download PDF

Info

Publication number
JP5066147B2
JP5066147B2 JP2009189280A JP2009189280A JP5066147B2 JP 5066147 B2 JP5066147 B2 JP 5066147B2 JP 2009189280 A JP2009189280 A JP 2009189280A JP 2009189280 A JP2009189280 A JP 2009189280A JP 5066147 B2 JP5066147 B2 JP 5066147B2
Authority
JP
Japan
Prior art keywords
character string
classification
evaluation value
document
holding unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009189280A
Other languages
English (en)
Other versions
JP2011039985A (ja
Inventor
佳美 齋藤
敏行 加納
早織 新田
淳 小柴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2009189280A priority Critical patent/JP5066147B2/ja
Publication of JP2011039985A publication Critical patent/JP2011039985A/ja
Application granted granted Critical
Publication of JP5066147B2 publication Critical patent/JP5066147B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、複数の単語からなる表現から文字列を切り出す文書処理装置およびプログラムに関する。
一般的に、文書検索等の文書処理装置においては、入力された文(または文書)から文字列を切り出す技術が用いられる。この場合、例えば入力された文を形態素解析し、当該形態素解析結果から自立語を文字列として切り出し、当該切り出された文字列が文書検索等における例えばキーワードとして利用される。
上記した文字列を切り出す技術に関連して、複数の分野の文書データと、分野内での各単語の出現頻度を利用し、大半のキーワードを自動的に抽出し付与する技術が開示されている(例えば、特許文献1を参照)。
ところで、複数の単語からなる表現、例えば複合語等の文字列については、形態素解析結果に予め定められた条件、例えば名詞の連続する範囲を切り出すといった条件を適用することで文字列が切り出される。
しかしながら、複数の単語からなる表現には、例えば慣用句または専門用語のように固定化された表現もあれば、その場限りで用いられる一過性の高い表現も含まれる。
そこで、複数の単語からなる表現に対し、当該表現の重要度および安定性を評価し、評価値の高い表現を抽出する技術が開示されている(例えば、非特許文献1を参照)。
特開平7−78182号公報
辻河亨,吉田稔,中川裕志,"語彙空間の構造に基づく専門用語抽出",情報処理学会研究報告,自然言語処理研究会,Vol.159,No.22,pp.155−162,2003.
ところで、表現の出現による分類の観点で考えた場合、複数の単語からなる表現は、短く切り出された表現ほど分類によらず用いられ、長く切り出された表現ほど出現する分類が限定される傾向がある。
しかしながら、入力された文等がどの分類に属するか不明な場合、上記したような従来の技術では、当該文から文字列の切り出しを行うときに分類に応じた適切な切り出し範囲(つまり、入力された文の分類等における適切な範囲)を定めることができない。
例えば「外用消炎鎮痛剤を使用する場合の注意」という文が入力された場合を想定する。この場合、「外用消炎鎮痛剤」という複数の単語(名詞)からなる表現に対しては、「外用」、「消炎」および「鎮痛剤」の3つの単語に分けて(つまり、3つの単語を切り出して)利用したり、あるいは名詞が連続する最も長い範囲の「外用消炎鎮痛剤」という表現(文字列)のみを切り出して利用したり、あるいは「外用消炎鎮痛剤」、「消炎鎮痛剤」および「鎮痛剤」の3つの文字列を切り出してそれぞれ独立して利用したり、あるいは分野を定めずに安定性を評価し、例えば「消炎鎮痛剤」という文字列のみを切り出して利用したりというように種々の方法が用いられる。
つまり、入力された文等がどの分類に属するか不明な場合には、連続する複数の単語(名詞)からなる表現において分類に応じた適切な切り出し範囲を特定して文字列を切り出すことは困難である。
そこで、本発明の目的は、入力された文の属する分類が不明な場合であっても、複数の単語からなる表現において分類に応じた適切な文字列の切り出し範囲を決定することが可能な文書処理装置およびプログラムを提供することにある。
本発明の1つの態様によれば、文書毎に、当該文書が属する分類を示す分類情報および当該文書に含まれる文字列を示すインデックスを対応づけて予め格納する分類別文書格納手段と、ユーザによって指定された文であって、複数の単語から構成される第1の文字列を含む文を入力する入力手段と、前記入力された文を解析することにより、当該文に含まれる第1の文字列を構成する複数の単語を抽出する抽出手段と、前記抽出された複数の単語に基づいて、予め定められた条件に合致する複数の第2の文字列を取得する取得手段と、前記取得された複数の第2の文字列を保持する文字列保持手段と、前記文字列保持手段に保持された第2の文字列毎に、当該第2の文字列と一致するインデックスおよび当該第2の文字列を含むインデックスを前記分類別文書格納手段から検索する検索手段と、前記検索されたインデックスに基づいて、前記文字列保持手段に保持された第2の文字列の各々の評価値を、当該インデックスに対応づけて前記分類別文書格納手段に格納されている分類情報によって示される分類毎に算出する評価値算出手段と、前記算出された評価値が予め定められた第1の値以上である分類の数が予め定められた第2の値以上である前記文字列保持手段に保持された第2の文字列のうち、当該第2の文字列の長さが最も長い第2の文字列を前記入力された文から切り出される文字列として決定する決定手段とを具備し、前記評価値算出手段は、前記検索されたインデックスの数を示す第1の出現回数を算出する第1の算出手段と、前記検索されたインデックスのうち、前記文字列保持手段に保持された第2の文字列を含むインデックスの数を示す第2の出現回数を算出する第2の算出手段と、前記検索されたインデックスのうち、異なるインデックスの数を示す異なり数を算出する第3の算出手段とを含み、前記第1の算出手段によって算出された第1の出現回数、前記第2の算出手段によって算出された第2の出現回数および前記第3の算出手段によって算出された異なり数を用いて前記評価値を算出することを特徴とする文書処理装置が提供される。
本発明は、入力された文の属する分類が不明な場合であっても、複数の単語からなる表現において分類に応じた適切な文字列の切り出し範囲を決定することを可能とする。
本発明の第1の実施形態に係る文書処理装置のハードウェア構成を示すブロック図。 図1に示す文書処理装置30の主として機能構成を示すブロック図。 図2に示す分類別文書データベース22のデータ構造の一例を示す図。 本実施形態に係る文書処理装置30の処理手順を示すフローチャート。 形態素解析結果保持部23に保持される形態素解析結果の一例を示す図。 表現切り出し部33によって取得された文字列を保持する文字列保持部24のデータ構造の一例を示す図。 包含関係判定部34による判定結果を保持する文字列保持部24のデータ構造の一例を示す図。 分類評価値算出処理の処理手順の詳細を示すフローチャート。 key文字列が「外用消炎鎮痛剤」である場合の分類評価値算出部35による検索結果の一例を示す図。 key文字列が「消炎鎮痛剤」である場合の分類評価値算出部35による検索結果の一例を示す図。 図7に示す文字列保持部24に保持されている文字列の各々に対して分類評価値算出処理が実行された後の文字列保持部24のデータ構造の一例を示す図。 切り出し文字列決定処理の処理手順の詳細を示すフローチャート。 図12に示す切り出し文字列決定処理が実行された後の文字列保持部24のデータ構造の一例を示す図。 分類別文書データベース22とは内容が異なる分類別文書データベースを用いて分類評価値算出処理が実行された場合の文字列保持部24のデータ構造の一例を示す図。 図14に示す文字列保持部24に保持されている情報を用いて切り出し文字列決定処理が実行された後の文字列保持部24のデータ構造の一例を示す図。 本発明の第2の実施形態に係る文書処理装置の主として機能構成を示すブロック図。 本実施形態に係る文書処理装置300の処理手順を示すフローチャート。 形態素解析結果保持部23に保持される形態素解析結果の一例を示す図。 表現切り出し部33によって取得された文字列を保持する文字列保持部24のデータ構造の一例を示す図。 文字列変形部301によって変形された文字列を保持する文字列保持部24のデータ構造の一例を示す図。 包含関係判定部34による判定結果を保持する文字列保持部24のデータ構造の一例を示す図。 分類評価値算出処理および切り出し文字列決定処理が実行された後の文字列保持部24のデータ構造の一例を示す図。
以下、図面を参照して、本発明の各実施形態について説明する。
[第1の実施形態]
まず、図1および図2を参照して、本発明の第1の実施形態について説明する。図1は、本実施形態に係る文書処理装置のハードウェア構成を示すブロック図である。図1に示すように、コンピュータ10は、例えばハードディスクドライブ(HDD:Hard Disk Drive)のような外部記憶装置20と接続されている。この外部記憶装置20は、コンピュータ10によって実行されるプログラム21を格納する。コンピュータ10および外部記憶装置20は、文書処理装置30を構成する。
図2は、図1に示す文書処理装置30の主として機能構成を示すブロック図である。図2に示すように、文書処理装置30は、入力処理部31、形態素解析部32、表現切り出し部33、包含関係判定部34、分類評価値算出部35、文字列決定部36および出力処理部37を含む。本実施形態において、これらの各部31〜37は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。このプログラム21は、コンピュータ読み取り可能な記憶媒体に予め格納して頒布可能である。また、このプログラム21が例えばネットワークを介してコンピュータ10にダウンロードされても構わない。
また、文書処理装置30は、分類別文書データベース(DB)22、形態素解析結果保持部23および文字列保持部24を含む。本実施形態において、分類別文書データベース22、形態素解析結果保持部23および文字列保持部24は、例えば外部記憶装置20に格納される。
分類別文書データベース22には、文字列を含む複数の文書が予め格納される。この分類別文書データベース22に格納されている文書には、当該文書が属する分類を示す分類情報および当該文書に含まれる文字列を示すインデックスが含まれる。つまり、分類別文書データベース22には、当該分類別文書データベース22に格納されている文書が属する分類を示す分類情報および当該文書に含まれる文字列を示すインデックスが対応づけて予め格納される。
入力処理部31は、ユーザの指示・入力を処理する。具体的には、入力処理部31は、ユーザによって指定された文を入力する。入力処理31によって入力された文には、例えば連続する複数の単語から構成される文字列(第1の文字列)が含まれる。
形態素解析部32は、入力処理部31によって入力された文(以下、入力文と表記)を解析(ここでは、形態素解析)する。これにより、形態素解析部32は、入力文に含まれる文字列を構成する複数の単語を抽出する。形態素解析部32による入力文の形態素解析結果は、形態素解析結果保持部23において保持される。
表現切り出し部33は、形態素解析結果保持部23に保持された入力文の形態素解析結果に対し、表現を切り出すための予め定められた条件(後述する)を適用し、当該条件に合致する表現(文字列)を切り出す。換言すれば、表現切り出し部33は、形態素解析結果保持部23に保持されている形態素解析結果に含まれる複数の単語(形態素解析部32によって抽出された複数の単語)に基づいて、予め定められた条件に合致する複数の文字列(第2の文字列)を取得する。表現切り出し部33によって切り出された複数の文字列は、文字列保持部24において保持される。
包含関係判定部34は、文字列保持部24に保持された文字列の各々に対し、包含関係を判定するためのルール(後述する)を適用し、当該適用結果を文字列保持部24に格納する。包含関係判定部34は、例えば文字列保持部24に保持された文字列の長さ(当該文字列を構成する単語の数)の順位(以下、包含順位と表記)を当該文字列の各々に対応づけて文字列保持部24に格納する。
分類評価値算出部35は、文字列保持部24に保持された文字列と一致するインデックスおよび当該文字列を含むインデックスを分類別文書データベース22から検索する。分類評価値算出部35は、検索結果(検索されたインデックス)に基づいて、文字列保持部24に保持されている文字列の各々の分類評価値を算出する。なお、分類評価値算出部35は、文字列保持部24に保持された文字列の各々の分類評価値を、検索されたインデックスに対応づけて分類別文書データベース22に格納されている分類情報によって示される分類毎に算出する。分類毎に算出された文字列の分類評価値は、文字列保持部24において保持される。
文字列決定部36は、文字列保持部24に保持された分類評価値(分類評価値算出部35によって算出された分類評価値)に基づいて、当該文字列保持部24に保持された文字列の中から入力文から切り出される文字列を決定する。文字列決定部36によって決定された文字列は、出力処理部37によって出力される。
図3は、図2に示す分類別文書データベース22のデータ構造の一例を示す。上記したように分類別文書データベース22には、複数の文書が格納される。分類別文書データベース22に格納される文書には、当該文書の本文、当該文書を識別するための文書ID、当該文書が属する分類(を示す分類情報)および当該文書に含まれる文字列を示すインデックス(当該文書のインデックス)が含まれる。
図3に示す分類別文書データベース22には、文書221および222を含む複数の文書が格納されている。
図3に示す例では、分類別文書データベース22に格納されている文書221には、当該文書221の本文、当該文書221を識別するための文書ID「0001」および当該文書221が属する分類を示す分類情報「a」が含まれている。また、分類別文書データベース22に格納されている文書221には、当該文書221のインデックス「外用消炎鎮痛剤」、「使用」、「注意」、「患部」、「清潔」、「傷」、「場合」、「皮膚症状」および「中止」が含まれている。
また、分類別文書データベース22に格納されている文書222には、当該文書222の本文、当該文書222を識別するための文書ID「0002」および当該文書222が属する分類を示す分類情報「b」が含まれている。また、分類別文書データベース22に格納されている文書222には、当該文書222のインデックス「消炎鎮痛剤」、「禁忌」、「過敏症」、「既往歴」、「患者」、「妊娠」、「可能性」、「婦人」、「注意」、「外用」および「使用」が含まれている。
次に、図4のフローチャートを参照して、本実施形態に係る文書処理装置30の処理手順について説明する。
まず、入力処理部31は、ユーザによって指定された文(例えば、検索要求文等)を入力する(ステップS1)。入力処理部31によって入力された文は、連続する複数の単語(名詞)から構成される文字列(例えば、外用消炎鎮痛剤)を含む。ここでは、入力処理部31はユーザによって指定された文を入力するものとして説明したが、入力処理部31はユーザによって指定された文書を入力しても構わない。
以下、入力処理部31によって「外用消炎鎮痛剤を使用する場合の注意」という文が入力されたものとして説明する。
形態素解析部32は、入力処理部31によって入力された文、つまり入力文「外用消炎鎮痛剤を使用する場合の注意」を形態素解析する(ステップS2)。この形態素解析により、入力文に含まれる複数の単語が抽出される。形態素解析部32は、抽出された複数の単語を含む形態素解析結果を形態素解析結果保持部23に格納する。
ここで、図5は、形態素解析結果保持部23に保持される形態素解析結果の一例を示す。図5に示す形態素解析結果は、上記した入力文「外用消炎鎮痛剤を使用する場合の注意」に対する形態素解析の結果である。
図5に示すように、形態素解析結果には、番号に対応づけて文字列、単語(見出し)、品詞および活用形が含まれる。なお、単語は、文字列における活用語尾を除いたものである。
図5に示す形態素解析結果には、例えば番号「1」に対応づけて文字列「外用」、単語「外用」および品詞「名詞」が含まれている。
また、図5に示す形態素解析結果には、例えば番号「5」に対応づけて文字列「使用する」、単語「使用」、品詞「サ変名詞」および活用形「終止形」が含まれている。
次に、表現切り出し部33は、形態素解析結果保持部23に保持されている形態素解析結果に基づいて、予め定められた条件(表現を切り出すための条件)に合致する複数の文字列を取得する(ステップS3)。この条件は、表現切り出し部33において予め保持されている。
ここで、表現を切り出すための条件について具体的に説明する。表現を切り出すための条件には、例えば第1および第2の条件が含まれる。
第1の条件は、入力文における品詞が名詞である単語(以下、単に名詞と表記)が連続する範囲(区間)に対し、当該範囲内の任意の位置の名詞から末尾の名詞までの単語から構成される文字列であることを示す。
第2の条件は、入力文における単独の名詞であること(つまり、当該名詞の前後が名詞でないこと)を示す。
なお、第1の条件および第2の条件における名詞には、例えばサ変名詞が含まれるものとする。
表現切り出し部33は、第1および第2の条件が適用されることによって取得された複数の文字列を文字列保持部24に格納する。
ここで、図6は、表現切り出し部33によって取得された文字列を保持する文字列保持部24のデータ構造の一例を示す。図6に示す文字列保持部24には、入力文「外用消炎鎮痛剤を使用する場合の注意」に対して上記した第1および第2の条件が適用されることにより取得された文字列が保持されている。
まず、入力文「外用消炎鎮痛剤を使用する場合の注意」(の形態素解析結果)に対して第1の条件が適用された場合を想定する。この場合、入力文の「外用消炎鎮痛剤」が名詞が連続する範囲に該当するため、図6に示すように「外用消炎鎮痛剤」、「消炎鎮痛剤」および「鎮痛剤」の文字列が第1の条件が適用されることにより取得され、これらの文字列が文字列保持部24に保持される。
一方、入力文「外用消炎鎮痛剤を使用する場合の注意」(の形態素解析結果)に対して第2の条件が適用された場合を想定する。この場合、「使用」、「場合」および「注意」が単独の名詞に該当するため、図6に示すように「使用」、「場合」および「注意」の文字列が第2の条件が適用されることにより取得され、これらの文字列が文字列保持部24に保持される。
なお、上記した図5に示す形態素解析結果に含まれる単語において「使用(サ変名詞)」および「場合(名詞)」は連続しているが、これらの単語「使用」および「場合」の間には入力文において「する」の文字列が存在するため、このような場合には第1の条件における連続する範囲には該当しないものとする。
また、図6に示す文字列保持部24に保持される開始は、第1の条件または第2の条件に合致する文字列の先頭の単語(名詞)の図5に示す形態素解析結果における番号を示す。一方、図6に示す文字列保持部24に保持される終了は、第1の条件または第2の条件に合致する文字列の最後の単語の図5に示す形態素解析結果における番号を示す。文字列「外用消炎鎮痛剤」において具体的に説明すると、開始は形態素解析結果における単語「外用」の番号(ここでは、「1」)を示し、終了は形態素解析結果における単語「鎮痛剤」の番号(ここでは、「3」)を示す。
なお、上記した第1および第2の条件は一例であるため、他の条件が予め定められていても構わない。
再び図4に戻ると、包含関係判定部34は、文字列保持部24に保持される情報(文字列、開始および終了)に対し、包含関係を判定するための予め定められたルールを適用することで、当該文字列保持部24に保持されている文字列間の包含関係を判定する(ステップS4)。この包含関係を判定するためのルールは、包含関係判定部34において予め保持されている。
ここで、包含関係を判定するためのルールについて具体的に説明する。包含関係を判定するためのルールには、例えば第1〜第3のルールが含まれる。
第1のルールは、文字列保持部24に保持されている終了(番号)が同一の文字列に対して同一の文字列IDを付与することを示す。
第2のルールは、文字列保持部24に保持されている文字列の長さ(当該文字列を構成する単語の数)を示すlengthを、当該文字列毎に算出することを示す。なお、lengthは、文字列保持部24に保持されている開始および終了を用いて、「終了(番号)−開始(番号)+1」により算出される。
第3のルールは、同一の文字列IDが付与された文字列において、lengthの値が大きい順に順位(包含順位)を付与することを示す。
包含関係判定部34は、上記した第1〜第3のルールが適用された結果(包含関係の判定結果)を文字列保持部24に格納する。
ここで、図7は、包含関係判定部34による判定結果を保持する文字列保持部24のデータ構造の一例を示す。図7に示す文字列保持部24は、上記した第1〜第3のルールが適用された結果を判定結果として保持している。
なお、包含関係判定部34による判定結果には、文字列ID、lengthおよび包含順位が含まれる。
図7に示す例では、文字列保持部24に保持されている文字列「外用消炎鎮痛剤」、「消炎鎮痛剤」および「鎮痛剤」は終了番号が同一(ここでは、「3」)であるため、当該文字列保持部24には、文字列「外用消炎鎮痛剤」、「消炎鎮痛剤」および「鎮痛剤」に対応づけて同一の文字列ID「1」が保持されている。なお、同一の文字列IDが付与された複数の文字列(ここでは、「外用消炎鎮痛剤」、「消炎鎮痛剤」および「鎮痛剤」)は包含関係にある。
また、文字列保持部24には、文字列「外用消炎鎮痛剤」に対応づけてlength「3」が保持されている。このlength「3」は、「終了番号「3」−開始番号「1」+1」により算出される。
同様に、文字列保持部24には、文字列「消炎鎮痛剤」に対応づけてlength「2」、文字列「鎮痛剤」に対応づけてlength「1」が保持されている。
ここで、文字列「外用消炎鎮痛剤」は、同一の文字列ID(ここでは、文字列ID「1」)が付与された文字列の中で最もlengthの値が大きい。このため、文字列保持部24には、文字列「外用消炎鎮痛剤」に対応づけて包含順位「1」が保持されている。
同様に、文字列保持部24には、文字列「消炎鎮痛剤」に対応づけて包含順位「2」、文字列「鎮痛剤」に対応づけて包含順位「3」が保持されている。
また、文字列保持部24には、文字列「使用」に対応づけて文字列ID「2」、length「1」および包含順位「1」が保持されている。
文字列保持部24には、文字列「場合」に対応づけて文字列ID「3」、length「1」および包含順位「1」が保持されている。
更に、文字列保持部24には、文字列「注意」に対応づけて文字列ID「3」、length「1」および包含順位「1」が保持されている。
再び図4に戻ると、分類評価値算出部35は、分類別文書データベース22および図7に示す文字列保持部24を参照して、当該文字列保持部24に保持されている文字列の各々の分類評価値を算出する処理(以下、分類評価値算出処理と表記)を実行する(ステップS5)。分類評価値算出部35によって算出された分類評価値は、文字列保持部24において保持される。この分類評価値算出処理の詳細については後述する。
次に、文字列決定部36は、文字列保持部24に保持されている文字列の各々の分類評価値に基づいて、入力文から切り出される文字列(切り出し文字列)を決定する処理(以下、切り出し文字列決定処理と表記)を実行する(ステップS6)。換言すれば、文字列決定部36は、切り出し文字列決定処理によって分類に応じた適切な文字列の切り出し範囲を決定する。この切り出し文字列決定処理の詳細については後述する。
出力処理部37は、文字列決定部36によって決定された切り出し文字列を出力する(ステップS7)。出力処理部37によって出力された切り出し文字列は、例えば入力文が検索要求文である場合には当該検索処理等に用いられる。
次に、図8のフローチャートを参照して、前述した分類評価値算出処理(図4に示すステップS5の処理)の処理手順の詳細について説明する。
分類評価値算出処理においては、文字列保持部24に保持されている文字列の各々について分類評価値が算出される。ここでは、文字列保持部24には、図7に示す各情報が保持されているものとする。
まず、分類評価値算出部35は、文字列保持部24に保持されている文字列のうち、例えば1番目の文字列(番号「1」に対応づけられている文字列)を変数keyに格納することにより、当該文字列をkey文字列とする(ステップS11)。
図7に示す文字列保持部24によれば、番号「1」に対応づけられている文字列「外用消炎鎮痛剤」がkey文字列とされる。つまり、分類評価値算出処理においては、文字列「外用消炎鎮痛剤」から順に分類評価値が算出される。
次に、分類評価値算出部35は、分類別文書データベース22を参照して、インデックスにkey文字列を含む文書を当該分類別文書データベース22から検索する(ステップS12)。換言すれば、分類評価値算出部35は、key文字列と一致するインデックスおよびkey文字列を含むインデックス(を含む文書)を分類別文書データベース22から検索する。
なお、分類評価値算出部35は、検索されたインデックスとともに、当該文書が属する分類を示す分類情報を分類別文書データベース22から取得する。
上述した図3において説明したように分類別文書データベース22には文書のインデックスが格納されているが、このインデックスは、例えば当該文書に対する形態素解析結果に前述した第1および第2の条件を適用することによって取得された文字列に対して、前述した第1〜第3のルールが適用された結果において包含順位が1である文字列を示すものとする。
ここで、図9および図10は、分類評価値算出部35による検索結果の一例を示す。図9は、key文字列が「外用消炎鎮痛剤」である場合の分類評価値算出部35による検索結果の一例を示す。
図9に示す例では、分類評価値算出部35による検索結果には、key文字列「外用消炎鎮痛剤」を含むインデックスを含む文書として、文書ID「0001」、「0056」および「0101」によって識別される文書が含まれる。この文書ID「0001」、「0056」および「0101」によって識別される文書のインデックスであって、key文字列「外用消炎鎮痛剤」を含むインデックスは、「外用消炎鎮痛剤」である。
なお、文書ID「0001」、「0056」および「0101」によって識別される文書は、分類「a」に属する文書である。
図10は、key文字列が例えば「消炎鎮痛剤(図7に示す文字列保持部24において番号「2」に対応づけられている文字列)」である場合の分類評価値算出部35による検索結果の一例を示す。
図10に示す例では、分類評価値算出部35による検索結果には、key文字列「消炎鎮痛剤」を含むインデックスを含む文書として、文書ID「0001」、「0002」、「0056」および「0101」によって識別される文書が含まれる。この文書ID「0001」、「0056」および「0101」によって識別される文書のインデックスであって、key文字列「消炎鎮痛剤」を含むインデックスは、「外用消炎鎮痛剤」である。また、文書ID「0002」によって識別される文書のインデックスであって、key文字列「消炎鎮痛剤」を含むインデックス(当該key文字列と一致するインデックス)は、「消炎鎮痛剤」である。
なお、文書ID「0001」、「0056」および「0101」によって識別される文書は、分類「a」に属する文書である。また、文書ID「0002」によって識別される文書は、分類「b」に属する文書である。
再び図8に戻ると、分類評価値算出部35は、上記した図9または図10に示すような検索結果に基づいて、key文字列に対する分類評価値を算出する(ステップS13)。この場合、分類評価値算出部35は、key文字列に対する分類毎の分類評価値Vi(i=分類a、b、…)を算出する。
ここで、分類評価値Viは、「length(key)*(Ni(key)−Ti(key)/Ci(key))」の算出式により算出されるものとする。
この算出式における「length(key)」は、文字列保持部24に保持されているkey文字列のlength(key文字列を構成する単語の数)である。この「length(key)」は、文字列保持部24を参照することにより特定される。
算出式における「Ni(key)」は、分類iにおける、検索されたインデックスの数(第1の出現回数)を示す。具体的には、「Ni(key)」は、key文字列と一致するインデックスおよびkey文字列を含むインデックス(を含む文書)ののべ出現回数を示す。この「Ni(key)」は、上記した分類評価値算出部35による検索結果により特定される。
算出式における「Ti(key)」は、分類iにおける、key文字列を含むインデックス(を含む文書)の数(第2の出現回数)を示す。この「Ti(key)」は、上記した分類評価値算出部35による検索結果により特定される。
また、算出式における「Ci(key)」は、分類iにおける、key文字列と一致するインデックスおよびkey文字列を含むインデックス(を含む文書)の異なり数を示す。この「Ci(key)」は、上記した分類評価値算出部35による検索結果により特定される。なお、異なり数とは、分類評価値算出部35によって検索されたインデックスのうち、異なるインデックスの数をいう。
つまり、分類評価値算出部35は、上記した「Ni(key)」、「Ti(key)」および「Ci(key)」の各値を算出し、これらの「Ni(key)」、「Ti(key)」および「Ci(key)」の値を用いて分類評価値Viを算出する。
ここで、分類評価値算出部35による検索結果が上記した図9および図10に示す検索結果である場合における分類評価値Viの算出について具体的に説明する。ここでは、key文字列「外用消炎鎮痛剤」においては、便宜的に、図9に示す3つのインデックス(を含む文書)のみが検索されたものとして説明する。同様に、key文字列「消炎鎮痛剤」においては、便宜的に、図10に示す4つのインデックス(を含む文書)のみが検索されたものとして説明する。
まず、分類評価値算出部35による検索結果が上記した図9に示す検索結果である場合における、key文字列「外用消炎鎮痛剤」に対する分類aの分類評価値Vaの算出について説明する。
この場合、図7に示す文字列保持部24によれば、「length(key)」は3である。図9に示す検索結果によれば、分類aにおけるkey文字列「外用消炎鎮痛剤」と一致するインデックスの数は3であるため、「Na(key)」は3である。図9に示す検索結果によれば、分類aにおけるkey文字列「外用消炎鎮痛剤」を含むインデックス(当該key文字列より長いインデックス)の数は0であるため、「Ta(key)」は0である。また、図9に示す検索結果によれば、分類aにおいて検索されたインデックスは「外用消炎鎮痛剤」のみであるため、「Ca(key)」は1である。以上により、key文字列「外用消炎鎮痛剤」に対する分類aの分類評価値Vaは、「3*(3−0/1)」により9となる。
一方、分類評価値算出部35による検索結果が上記した図9に示す検索結果である場合における、key文字列「外用消炎鎮痛剤」に対する分類bの分類評価値Vbの算出について説明する。
この場合、図9に示す検索結果においては例えば分類bに属する文書は検索されていないため、「Nb(key)」、「Tb(key)」および「Cb(key)」はそれぞれ0となる。したがって、key文字列「外用消炎鎮痛剤」に対する分類bの分類評価値Vbは0となる。
次に、分類評価値算出部35による検索結果が上記した図10に示す検索結果である場合における、key文字列「消炎鎮痛剤」に対する分類aの分類評価値Vaの算出について説明する。
この場合、図7に示す文字列保持部24によれば、「length(key)」は2である。図10に示す検索結果によれば、分類aにおけるkey文字列「消炎鎮痛剤」を含むインデックスの数は3であるため、「Na(key)」は3である。図10に示す検索結果によれば、分類aにおけるkey文字列「消炎鎮痛剤」を含むインデックス(当該key文字列より長いインデックス)の数は3であるため、「Ta(key)」は3である。また、図10に示す検索結果によれば、分類aにおいて検索されたインデックスは「外用消炎鎮痛剤」のみであるため、「Ca(key)」は1である。以上により、key文字列「消炎鎮痛剤」に対する分類aの分類評価値Vaは、「2*(3−3/1)」により0となる。
一方、分類評価値算出部35による検索結果が上記した図10に示す検索結果である場合における、key文字列「消炎鎮痛剤」に対する分類bの分類評価値Vbの算出について説明する。
この場合、上記したように「length(key)」は2である。図10に示す検索結果によれば、分類bにおけるkey文字列「消炎鎮痛剤」と一致するインデックスの数は1であるため、「Nb(key)」は1である。図10に示す検索結果によれば、分類bにおけるkey文字列「消炎鎮痛剤」を含むインデックス(当該key文字列より長いインデックス)の数は0であるため、「Tb(key)」は0である。また、図10に示す検索結果によれば、分類bにおいて検索されたインデックスは「消炎鎮痛剤」のみであるため、「Cb(key)」は1である。以上により、key文字列「消炎鎮痛剤」に対する分類bの分類評価値Vbは、「2*1−0/1」により2となる。
上記したように算出されたkey文字列に対する分類毎の分類評価値Viは、当該分類評価値Viの算出に用いられた「Ni(key)」、「Ti(key)」および「Ci(key)」とともに文字列保持部24において保持される。
分類評価値算出部35によって算出されたkey文字列に対する分類毎の分類評価値Viが文字列保持部24に保持されると、分類評価値算出部35は、文字列保持部24に上記したステップS12およびステップS13の処理が実行されていない文字列(つまり、未処理の文字列)があるか否かを判定する(ステップS14)。
未処理の文字列が文字列保持部24にないと判定された場合(ステップS14のNO)、分類評価値算出処理は終了される。
一方、未処理の文字列が文字列保持部24にあると判定された場合(ステップS14のYES)、当該未処理の文字列をkey文字列として上記したステップS12に戻って処理が繰り返される。
ここで、図11は、上述した図7に示す文字列保持部24に保持されている文字列の各々に対して分類評価値算出処理が実行された後の文字列保持部24のデータ構造の一例を示す。
図11に示すように、文字列保持部24には、文字列の各々に対する分類毎の分類評価値Vi(Va、Vb、…)が保持されている。なお、図11においては、key文字列に対する分類aの分類評価値Vaの算出に用いられた「Na(key)」、「Ta(key)」および「Ca(key)」を単にNa、TaおよびCaとする。分類bの分類評価値Vbについても同様とする。また、以下の説明においても同様とする。
具体的には、文字列保持部24には、文字列「外用消炎鎮痛剤」に対する分類aの分類評価値Va「30」と、当該分類評価値Vaの算出に用いられたNa「10」、Ta「0」およびCa「1」とが保持されている。
また、文字列保持部24には、文字列「外用消炎鎮痛剤」に対する分類bの分類評価値Vb「0」と、当該分類評価値Vbの算出に用いられたNb「0」、Tb「0」およびCb「0」とが保持されている。
同様に、文字列保持部24には、文字列「消炎鎮痛剤」に対する分類aの分類評価値Va「12」と、当該分類評価値Vaの算出に用いられたNa「11」、Ta「10」およびCa「2」とが保持されている。
また、文字列保持部24には、文字列「消炎鎮痛剤」に対する分類bの分類評価値Vb「20」と、当該分類評価値Vbの算出に用いられたNb「10」、Tb「0」およびCb「1」とが保持されている。
なお、ここでは、文字列保持部24に保持されている文字列「外用消炎鎮痛剤」および「消炎鎮痛剤」について説明したが、他の文字列についても同様であるためその詳しい説明を省略する。
次に、図12のフローチャートを参照して、前述した切り出し文字列決定処理(図4に示すステップS6の処理)の処理手順の詳細について説明する。
切り出し文字列決定処理においては、文字列保持部24に保持されている文字列の各々について算出された分類毎の分類評価値に基づいて、入力文から切り出される文字列が決定される。ここでは、文字列保持部24には、上記した図11に示す分類評価値等の各情報が保持されているものとして説明する。
切り出し文字列決定処理においては、文字列決定部36は、文字列保持部24に保持されている文字列ID毎に以下のステップS21〜ステップS23の処理を実行する。
まず、文字列決定部36は、変数id=1、変数n=1とする。次に、文字列決定部36は、文字列保持部24を参照して、文字列IDが変数idで、包含順位が変数nである文字列を特定する。以下、文字列決定部36において特定された文字列を、文字列Xと表記する。
上記したように変数id=1、変数n=1である場合には、図11に示す文字列保持部24によれば文字列Xは「外用消炎鎮痛剤」となる。
文字列決定部36は、文字列保持部24に保持されている文字列Xの各分類毎の分類評価値に基づいて、当該分類評価値が予め定められた値(第1の値)以上である分類の数が予め定められた値(第2の値)以上であるという条件を、当該文字列Xが満たすか否かを判定する(ステップS21)。
ここで、文字列Xが「外用消炎鎮痛剤」であり、第1の値が4であり、第2の値が1である場合を想定する。この場合、図11に示す文字列保持部24によれば文字列Xである「外用消炎鎮痛剤」に対する分類aの分類評価値Vaは30である(つまり、4以上)であるため、当該文字列Xは条件を満たすと判定される。
文字列Xが条件を満たさないと判定された場合(ステップS21のNO)、文字列決定部36は、文字列保持部24に保持されている文字列Xの文字列IDにおいて上記したステップS21の処理が実行されていない包含順位(つまり、未処理の包含順位)があるか否かを判定する(ステップS22)。ステップS22において未処理の包含順位があると判定された場合、上記した変数n=n+1とした上で、上記したステップS21に戻って処理が繰り返される。
一方、文字列Xが条件を満たすと判定された場合(ステップS21のYES)、文字列決定部36は、当該文字列Xを入力文から切り出される文字列(切り出し文字列)として決定する(ステップS23)。文字列決定部36は、文字列Xが切り出し文字列として決定された旨の情報を文字列保持部24に格納する。
上記したステップ22において未処理の包含順位がないと判定された場合、または、ステップS23の処理が実行された場合、文字列決定部36は、文字列保持部24に上記したステップS21〜ステップS23の処理が実行されていない文字列ID(つまり、未処理の文字列ID)があるか否かを判定する(ステップS24)。
未処理の文字列IDがないと判定された場合(ステップS24のNO)、切り出し文字列決定処理は終了される。
一方、未処理の文字列IDがあると判定された場合(ステップS24のYES)、上記した変数id=id+1とした上で、上記したステップS21に戻って処理が繰り返される。これにより、次の未処理の文字列IDについてステップS21以降の処理が実行される。
上記したような切り出し文字列決定処理により、文字列保持部24に同一の文字列IDが付与されている複数の文字列(つまり、包含関係にある複数の文字列)が保持されている場合には、当該複数の文字列のうち分類評価値が第1の値以上である分類の数が第2の値以上であるという条件を満たす文字列であって、かつ、文字列の長さが最も長い(つまり、当該文字列を構成する単語の数が最も多い)文字列が切り出し文字列として決定される。
ここで、図13は、図11に示す文字列保持部24(に保持されている情報)を用いて図12に示す切り出し文字列決定処理が実行された後の文字列保持部24のデータ構造の一例を示す。
図13に示す例では、文字列保持部24には、文字列「外用消炎鎮痛剤」、「使用」、「場合」および「注意」が切り出し文字列決定処理において切り出し文字列として決定された旨の情報として、これらの文字列に対応づけて判定「○」が保持されている。
出力処理部37は、文字列保持部24を参照して、判定「○」に対応づけて当該文字列保持部24に保持されている文字列(切り出し文字列として決定された文字列)を出力する。なお、出力処理部37は、切り出し文字列として決定された文字列とともに、当該文字列に対する分類評価値が最も高い分類を示す分類情報を出力しても構わない。
なお、図14は、分類別文書データベース22とは内容(格納されている文書)が異なる分類別文書データベースを用いて分類評価値算出処理が実行された場合の文字列保持部24のデータ構造の一例を示す。
この場合、分類別文書データベース22とは内容が異なる分類別文書データベースが用いられているため、前述した図11に示す文字列保持部24と比較して、文字列保持部24に保持されている例えば文字列「外用消炎鎮痛剤」および「消炎鎮痛剤」に対する分類評価値Va(および当該部分類評価値Vaの算出に用いられるNa、Ta、Ca)が異なっている。なお、図14においては、文字列「外用消炎鎮痛剤」および「消炎鎮痛剤」に対する分類評価値Vaおよび当該分類評価値Vaの算出に用いられるNa、Ta、Ca以外の値については便宜的に前述した図11と同一の値としている。
図15は、図14に示す文字列保持部24(に保持されている情報)を用いて図12に示す切り出し文字列決定処理が実行された後の文字列保持部24のデータ構造の一例を示す。
この場合、前述した図13とは異なり、文字列「外用消炎鎮痛剤」に対する分類aの分類評価値Vaは、例えば4(第1の値)以上ではないため、図15に示す文字列保持部24には、当該文字列「外用消炎鎮痛剤」ではなく文字列「消炎鎮痛剤」(つまり、包含順位が2の文字列)に対応づけて判定「○」が保持されている。つまり、この場合には文字列「消炎鎮痛剤」が切り出し文字列として決定されている。
上記したように本実施形態においては、入力文に含まれる複数の単語から予め定められた条件(第1および第2の条件)に合致する複数の文字列が取得される。本実施形態においては、取得された複数の文字列の各々に対して分類毎の分類評価値が算出され、当該分類毎の分類評価値に基づいて入力文から切り出される文字列(切り出し文字列)が決定される。また、本実施形態においては、包含関係にある複数の文字列(つまり、同一の文字列IDが付与された複数の文字列)のうち、分類評価値が第1の値以上である分類の数が第2の値以上である文字列であって、かつ、当該文字列を構成する単語の数が最も多い(当該文字列の長さが最も長い)文字列が切り出し文字列として決定される。
これにより、本実施形態においては、入力された文の属する分類が不明な場合であっても、複数の単語からなる表現(文字列)において分類に応じた適切な文字列の切り出し範囲を決定することが可能となる。
なお、本実施形態においては、包含関係にある複数の文字列のうち1つのみが切り出し文字列として決定されるものとして説明したが、上記した条件を満たす文字列のうち、当該文字列を構成する単語の数が多い順に上位M個の文字列が切り出し文字列として決定される構成であっても構わない。
また、本実施形態においては、分類別文書データベース22には文書の本文、文書ID、分類情報およびインデックスが格納されているものとして説明したが、分類情報およびインデックスのみが格納されていても構わない。
また、分類別文書データベース22において、頻出する文字列に対する分類毎の分類評価値については予め格納しておく構成であっても構わない。このような構成とすることで、分類評価値算出処理における処理量を軽減することができる。
[第2の実施形態]
次に、図16を参照して、本発明の第2の実施形態について説明する。図16は、本実施形態に係る文書処理装置の主として機能構成を示すブロック図である。なお、前述した図2と同様の部分には同一参照符号を付してその詳しい説明を省略する。ここでは、図2と異なる部分について主に述べる。
また、本実施形態に係る文書処理装置のハードウェア構成は、前述した第1の実施形態と同様であるため、適宜、図1を用いて説明する。
本実施形態においては、文字列保持部24に保持されている文字列を予め定められた条件に基づいて変更し、当該変更された文字列についても前述した第1の実施形態における分類評価値算出処理および切り出し文字列決定処理が実行される点が、前述した第1の実施形態とは異なる。なお、本実施形態においては、表現切り出し部33において用いられる条件についても前述した第1の実施形態とは異なる。
図16に示すように、文書処理装置300は、文字列変更部301を含む。本実施形態において、文字列変更部301は、図1に示すコンピュータ10が外部記憶装置20に格納されているプログラム21を実行することにより実現されるものとする。
文字列変更部301は、文字列保持部24に保持されている文字列(つまり、表現切り出し部33によって取得された文字列)に対して予め定められた条件(以下、文字列変形ルール)を適用することによって、当該文字列を変形する。文字列変更部301は、変形された文字列を文字列保持部24に追加する。
次に、図17のフローチャートを参照して、本実施形態に係る文書処理装置300の処理手順について説明する。
まず、前述した図4に示すステップS1およびステップS2の処理に相当するステップS31およびステップS32の処理が実行される。以下、ステップS31において、「外用の消炎鎮痛剤を使用する場合の注意」という文が入力されたものとして説明する。
ここで、図18は、形態素解析結果保持部23に保持される形態素解析結果(つまり、ステップS32における形態素解析結果)の一例を示す。図18に示す形態素解析結果は、上記した入力文「外用の消炎鎮痛剤を使用する場合の注意」に対する形態素解析の結果である。なお、図18に示す形態素解析結果の詳細については、前述した図5と同様であるため省略する。
再び図17に戻ると、表現切り出し部33は、図18に示す形態素解析結果保持部23に保持されている形態素解析結果に基づいて、予め定められた条件(表現を切り出すための条件)に合致する複数の文字列を取得する(ステップS33)。
ここで、本実施形態においては、表現切り出し部33は、前述した第1の実施形態において用いられた第1の条件に代えて第3の条件を用いる。
この第3の条件は、入力文における品詞が名詞である単語(以下、単に名詞と表記)が連続する範囲(区間)または間に助詞「の」を挟んで連続する範囲に対し、当該範囲内の任意の名詞から末尾の名詞までの単語から構成される文字列であることを示す。
表現切り出し部33は、第3の条件および前述した第2の条件が適用されることによって取得された複数の文字列を文字列保持部24に格納する。
ここで、図19は、表現切り出し部33によって取得された文字列を保持する文字列保持部24のデータ構造の一例を示す。図19に示す文字列保持部24には、入力文「外用の消炎鎮痛剤を使用する場合の注意」に対して上記した第3および第2の条件が適用されることにより取得された文字列が保持されている。
まず、入力文「外用の消炎鎮痛剤を使用する場合の注意」(の形態素解析結果)に対して第3の条件が適用された場合を想定する。この場合、入力文の「外用の消炎鎮痛剤」が間に助詞「の」を挟んで名詞が連続する範囲に該当するため、図19に示すように「外用の消炎鎮痛剤」、「消炎鎮痛剤」および「鎮痛剤」の文字列が第3の条件が適用されることにより取得され、これらの文字列が文字列保持部24に保持される。同様に、図19に示すように、「場合の注意」および「注意」の文字列が第3の条件が適用されることにより取得され、これらの文字列が文字列保持部24に保持される。
一方、入力文「外用の消炎鎮痛剤を使用する場合の注意」(の形態素解析結果)に対して第2の条件が適用された場合を想定する。この場合、「使用」が単独の名詞に該当するため、図19に示すように「使用」の文字列が第2の条件が適用されることにより取得され、この文字列が文字列保持部24に保持される。
なお、図19に示す文字列保持部24に保持される開始および終了については、前述した図6等と同様であるためその詳しい説明を省略する。
再び図17に戻ると、文字列変形部301は、文字列変形ルールに基づいて、文字列保持部24に保持されている文字列を変形する、つまり、当該文字列が変形された文字列(表現)を生成する(ステップS34)。文字列変形部301は、例えば上記した第3の条件が適用されることにより取得された文字列に対して変形処理を実行する。
ここで、文字列変形ルール(変形規則)は、例えば「名詞+助詞「の」+名詞」の文字列を「名詞+名詞」に変形することを示す。換言すれば、この文字列変形ルールは、文字列保持部24に保持されている文字列の品詞が名詞である単語の間に助詞「の」が挿入されているような表現(文字列)を、名詞の連続表現となる文字列に変換することを示す。なお、この文字列変形ルールは一例であるため、例えば「特許を出願する」の文字列を「特許出願」等の文字列(名詞の連続表現)に変形するような変形ルールが用いられても構わない。
文字列変形部301は、文字列保持部24に保持されている文字列が変形された文字列を、当該文字列保持部24に格納する。
ここで、図20は、文字列変形部301によって変形された文字列を保持する文字列保持部24のデータ構造の一例を示す。
図20に示す文字列保持部24には、上記した図19に示す文字列保持部24に保持されている文字列に加えて、文字列「外用消炎鎮痛剤」および「場合注意」が保持されている。
図20に示す文字列保持部24に保持されている文字列「外用消炎鎮痛剤」は、図19に示す文字列保持部24に保持されている文字列「外用の消炎鎮痛剤」に対して上記した文字列変形ルールが適用されることにより変形された文字列である。
また、図20に示す文字列保持部24に保持されている文字列「場合注意」は、図19に示す文字列保持部24に保持されている文字列「場合の注意」に対して上記した文字列変形ルールが適用されることにより変形された文字列である。
なお、図20に示すように、文字列保持部24における変形された文字列の開始および終了は、変形前の文字列の開始および終了と同一である。
上記したようにステップS34の処理が実行され、変形された文字列が文字列保持部24において保持されると、図4に示すステップS4〜ステップS7の処理に相当するステップS35〜ステップS38の処理が実行される。なお、ステップS36に示す分類評価値算出処理およびステップS37に示す切り出し文字列決定処理の詳細についても前述した第1の実施形態と同様であるためその詳しい説明を省略する。
図21は、包含関係判定部34による判定結果を保持する文字列保持部24(つまり、ステップS35の処理が実行された後の文字列保持部24)のデータ構造の一例を示す。
図21に示す文字列保持部24には、前述したように同一の文字列IDが付与された複数の文字列についてはlengthの値に応じて包含順位が保持される。
ここで、例えば図21に示す文字列「外用の消炎鎮痛剤」および文字列「外用消炎鎮痛剤」は、lengthの値は同一である。この場合、文字列に対応づけられている番号が小さい方の包含順位が高くなるようにするものとする。図21に示す例では、文字列「外用の消炎鎮痛剤」および「外用消炎鎮痛剤」のlengthの値はともに4であるが、文字列「外用消炎鎮痛剤」の番号は1、文字列「外用消炎鎮痛剤」の番号は7であるため、文字列「外用の消炎鎮痛剤」の包含順位が1、文字列「外用消炎鎮痛剤」の包含順位が2となる。
なお、文字列「場合の注意」および「場合注意」についても文字列「外用の消炎鎮痛剤」および「外用消炎鎮痛剤」と同様であるため、その詳しい説明を省略する。
図22は、ステップS36の分類評価値算出処理およびステップS37の切り出し文字列決定処理が実行された後の文字列保持部24のデータ構造の一例を示す。
図22に示すように、文字列保持部24には、文字列「使用」、「場合の注意」および「外用消炎鎮痛剤」に対応づけて判定「○」が保持されている。
つまり、文字列ID「1」が付与された文字列「外用の消炎鎮痛剤」、「消炎鎮痛剤」、「鎮痛剤」および「外用消炎鎮痛剤」の中からは、前述した切り出し文字列決定処理において文字列「外用消炎鎮痛剤」が入力文から切り出される文字列(切り出し文字列)として決定されている。
同様に、文字列ID「3」が付与された文字列「場合の注意」、「注意」および「場合注意」の中からは、前述した切り出し文字列決定処理において文字列「場合の注意」が切り出し文字列として決定されている。
これにより、文字列文字列「使用」、「場合の注意」および「外用消炎鎮痛剤」が出力処理部37によって出力される。
上記したように本実施形態においては、文字列保持部24に保持されている文字列(つまり、表現切り出し部33によって取得された文字列)が文字列変形ルールに基づいて変形され、当該変形された文字列についても分類評価値算出処理および切り出し文字列決定処理が実行される。
これにより、本実施形態においては、表現切り出し部33によって取得された文字列に対する分類毎の分類評価値が分類評価値算出処理における条件を満たさないような場合には、変形された文字列を切り出し文字列として決定することが可能となる。
したがって、本実施形態においては、入力文の属する分類が不明な場合であっても、複数の単語からなる表現において分類に応じた適切な文字列の切り出し範囲を決定することができる。
なお、本願発明は、上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記各実施形態に開示されている複数の構成要素の適宜な組合せにより種々の発明を形成できる。例えば、各実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に亘る構成要素を適宜組合せてもよい。
10…コンピュータ、20…外部記憶装置、22…分類別文書データベース(分類別文書格納手段)、23…形態素解析結果保持部、24…文字列保持部、30,300…文書処理装置、31…入力処理部、32…形態素解析部(抽出手段)、33…表現切り出し部(取得手段)、34…包含関係判定部、35…分類評価値算出部、36…文字列決定部、37…出力処理部、301…文字列変形部。

Claims (4)

  1. 文書毎に、当該文書が属する分類を示す分類情報および当該文書に含まれる文字列を示すインデックスを対応づけて予め格納する分類別文書格納手段と、
    ユーザによって指定された文であって、複数の単語から構成される第1の文字列を含む文を入力する入力手段と、
    前記入力された文を解析することにより、当該文に含まれる第1の文字列を構成する複数の単語を抽出する抽出手段と、
    前記抽出された複数の単語に基づいて、予め定められた条件に合致する複数の第2の文字列を取得する取得手段と、
    前記取得された複数の第2の文字列を保持する文字列保持手段と、
    前記文字列保持手段に保持された第2の文字列毎に、当該第2の文字列と一致するインデックスおよび当該第2の文字列を含むインデックスを前記分類別文書格納手段から検索する検索手段と、
    前記検索されたインデックスに基づいて、前記文字列保持手段に保持された第2の文字列の各々の評価値を、当該インデックスに対応づけて前記分類別文書格納手段に格納されている分類情報によって示される分類毎に算出する評価値算出手段と、
    前記算出された評価値が予め定められた第1の値以上である分類の数が予め定められた第2の値以上である前記文字列保持手段に保持された第2の文字列のうち、当該第2の文字列の長さが最も長い第2の文字列を前記入力された文から切り出される文字列として決定する決定手段と
    を具備し、
    前記評価値算出手段は、
    前記検索されたインデックスの数を示す第1の出現回数を算出する第1の算出手段と、
    前記検索されたインデックスのうち、前記文字列保持手段に保持された第2の文字列を含むインデックスの数を示す第2の出現回数を算出する第2の算出手段と、
    前記検索されたインデックスのうち、異なるインデックスの数を示す異なり数を算出する第3の算出手段と
    を含み、
    前記第1の算出手段によって算出された第1の出現回数、前記第2の算出手段によって算出された第2の出現回数および前記第3の算出手段によって算出された異なり数を用いて前記評価値を算出する
    ことを特徴とする文書処理装置。
  2. 文字列を変形するための予め定められた条件に基づいて、前記文字列保持手段に保持された第2の文字列を変形する文字列変形手段を更に具備し、
    前記文字列保持手段は、前記文字列変形手段によって変形された第2の文字列を更に保持する
    ことを特徴とする請求項1記載の文書処理装置。
  3. 前記取得手段は、前記抽出された複数の単語において、前記第1の文字列を構成する任意の単語から当該第1の文字列を構成する末尾の単語までの単語から構成される第2の文字列の各々を取得することを特徴とする請求項1記載の文書処理装置。
  4. 文書毎に、当該文書が属する分類を示す分類情報および当該文書に含まれる文字列を示すインデックスを対応づけて予め格納する分類別文書格納手段と文字列保持手段とを有する外部記憶装置と、当該外部記憶装置を利用するコンピュータとから構成される文書処理装置において、前記コンピュータによって実行されるプログラムであって、
    前記コンピュータに、
    ユーザによって指定された文であって、複数の単語から構成される第1の文字列を含む文を入力するステップと、
    前記入力された文を解析することにより、当該文に含まれる第1の文字列を構成する複数の単語を抽出するステップと、
    前記抽出された複数の単語に基づいて、予め定められた条件に合致する複数の第2の文字列を取得するステップと、
    前記取得された複数の第2の文字列を前記文字列保持手段に保持させるステップと、
    前記文字列保持手段に保持された第2の第2の文字列毎に、当該第2の文字列を含むインデックスを前記分類別文書格納手段から検索するステップと、
    前記検索されたインデックスに基づいて、前記文字列保持手段に保持された第2の文字列の各々の評価値を、当該インデックスに対応づけて前記分類別文書格納手段に格納されている分類情報によって示される分類毎に算出するステップと、
    前記算出された評価値が予め定められた第1の値以上である分類の数が予め定められた第2の値以上である前記文字列保持手段に保持された第2の文字列のうち、当該第2の文字列を構成する単語の数が最も多い第2の文字列を前記入力された文から切り出される文字列として決定するステップと
    を実行させ
    前記評価値を分類毎に算出するステップにおいて、前記検索されたインデックスの数を示す第1の出現回数を算出し、前記検索されたインデックスのうち、前記文字列保持手段に保持された第2の文字列を含むインデックスの数を示す第2の出現回数を算出し、前記検索されたインデックスのうち、異なるインデックスの数を示す異なり数を算出し、前記算出された第1の出現回数、前記算出された第2の出現回数および前記算出された異なり数を用いて前記評価値を算出する
    ことを特徴とするプログラム。
JP2009189280A 2009-08-18 2009-08-18 文書処理装置およびプログラム Expired - Fee Related JP5066147B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009189280A JP5066147B2 (ja) 2009-08-18 2009-08-18 文書処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009189280A JP5066147B2 (ja) 2009-08-18 2009-08-18 文書処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2011039985A JP2011039985A (ja) 2011-02-24
JP5066147B2 true JP5066147B2 (ja) 2012-11-07

Family

ID=43767656

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009189280A Expired - Fee Related JP5066147B2 (ja) 2009-08-18 2009-08-18 文書処理装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5066147B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016018279A (ja) * 2014-07-04 2016-02-01 富士通株式会社 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004318586A (ja) * 2003-04-17 2004-11-11 Canon Inc 文字認識手段を具備する情報検索装置システム
JP4510483B2 (ja) * 2004-02-23 2010-07-21 株式会社エヌ・ティ・ティ・データ 情報検索装置
JP4747752B2 (ja) * 2005-09-14 2011-08-17 日本電気株式会社 専門用語抽出装置、専門用語抽出方法および専門用語抽出プログラム
JP4236057B2 (ja) * 2006-03-24 2009-03-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 新たな複合語を抽出するシステム
JP4961869B2 (ja) * 2006-07-11 2012-06-27 沖電気工業株式会社 専門用語判別装置および専門用語判別方法

Also Published As

Publication number Publication date
JP2011039985A (ja) 2011-02-24

Similar Documents

Publication Publication Date Title
JP5273735B2 (ja) テキスト要約方法、その装置およびプログラム
JP2015506515A (ja) タグをドキュメントに自動的に追加するための方法、装置およびコンピュータ記憶媒体
CN111104488B (zh) 检索和相似度分析一体化的方法、装置和存储介质
US11573989B2 (en) Corpus specific generative query completion assistant
JP6551968B2 (ja) 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム
JP2014106665A (ja) 文書検索装置、文書検索方法
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
JP4795856B2 (ja) クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP5204203B2 (ja) 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム
Paul et al. An affix removal stemmer for natural language text in nepali
JP2008117351A (ja) 検索システム
JP5066147B2 (ja) 文書処理装置およびプログラム
Thangarasu et al. Design and development of stemmer for Tamil language: cluster analysis
Fatima et al. STEMUR: An automated word conflation algorithm for the Urdu language
JP4525433B2 (ja) 文書集約装置及びプログラム
JP6260678B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP2000259653A (ja) 音声認識装置及び音声認識方法
Stehouwer et al. Unlocking language archives using search
JPH11259524A (ja) 情報検索システム、情報検索システムにおける情報処理方法および記録媒体
JP2012243129A (ja) 話題語獲得装置、方法、及びプログラム
JP2009217406A (ja) 文書検索装置及び方法、並びに、プログラム
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP2000322416A (ja) 文書検索装置
JP2011244849A (ja) 類似症例検索プログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120717

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120810

R150 Certificate of patent or registration of utility model

Ref document number: 5066147

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150817

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees