[第1の実施形態]
図1は、第1の実施形態に係る言語処理装置の機能的構成を示す図である。
図1に示すように、本実施形態の言語処理装置1は、入力部110と、キーワード抽出部120と、文書抽出部130と、原語候補抽出部140と、原語特定部150と、変換部160と、出力部170と、記憶部190とを備える。
入力部110は、処理対象のテキストデータの入力を受け付ける。ここで、処理対象のテキストデータは、文章中の略語を原語(正式名称)に変換する文書データである。処理対象のテキストデータは、言語処理装置1のオペレータがキーボード等を操作して入力したデータであってもよいし、或いは外部装置から取得したデータであってもよい。以下の説明では、処理対象のテキストデータを、「処理対象のテキスト」或いは「テキスト」ともいう。
キーワード抽出部120は、テキストから、略語と、該略語についての特徴語との組を含むキーワードを抽出する。キーワード抽出部120は、テキストの形態素解析を行い、テキストに含まれるアルファベットの文字列や、記憶部190に記憶させた略語テーブル191に登録された略語等を、変換対象の略語として抽出する。また、キーワード抽出部120は、抽出した略語の係り受け語、或いは略語と複合語の関係にある語等の語句(形態素)を、特徴語として抽出する。
文書抽出部130は、記憶部190に記憶させた要約文データベース192と、本文データベース193とを参照し、テキストから抽出した略語及び特徴語の組を含む可能性の高い文書を抽出する。本文データベース193には、テキストと同一言語で作成された複数の文書(本文)が登録されている。要約文データベース192には、本文データベース193に登録された複数の文書(本文)のそれぞれについての要約文が登録されている。ここで、要約文は、例えば、文書のタイトルや要約(概要)等の、本文の内容を所定の文字数以内にまとめた短い文書である。要約文データベース192の要約文と、本文データベース193の文書(本文)とは、所定の識別子により対応付けられている。
本実施形態に係る文書抽出部130は、要約文検索部131と、本文検索部132とを含む。要約文検索部131は、略語と特徴語との組をキーワードとして要約文データベース192を検索し、略語又は特徴語を含む要約文を抽出する。本文検索部131は、本文データベース193を検索し、抽出した要約文と対応付けられた文書(本文データ)を抽出する。
原語候補抽出部140は、抽出した文書(本文データ)から、略語に対する原語の候補を抽出する。原語候補抽出部140は、記憶部190に記憶させた言語間関係テーブル194や略語テーブル191を参照し、本文データに含まれる文章から、略語に対する原語の候補を抽出する。
原語特定部150は、本文データにおける原語の候補から特徴語までの語数に基づいて、略語に対する原語を特定する。原語特定部150は、本文データの形態素解析を行い、原語の候補から特徴語までの語数(形態素数)を算出する。そして、算出した語数が所定の閾値以下である場合、原語の候補を略語に対する原語に特定する。
変換部160は、テキストから抽出した略語を、原語特定部150で特定した原語に変換する。
出力部170は、略語を原語に変換したテキストを出力する。出力部170は、テキストを音声に変換して出力してもよいし、テキストを可視化して出力(表示)してもよい。
記憶部190は、上記の略語テーブル191、要約文データベース192、本文データベース193、及び言語間関係テーブル194を含む、各種データを記憶する。
図2は、略語テーブルの例を示す図である。
略語テーブル191には、処理対象のテキストの言語における原語(正式名称)と、略語との対応関係が登録されている。テキストの言語が日本語である場合、図2に示すように、略語テーブル191には、日本語における原語と、該原語に対する略語との組が複数組登録されている。ここで、1個の原語に対する略語は、複数であってもよい。
図3は、本文データベースの例を示す図である。図4は、要約文データベースの例を示す図である。
本文データベース193には、テキストと同一言語で作成された複数の文書(本文データ)が登録されている。図3に示すように、本文データベース193に登録された複数の本文データには、それぞれ、本文データを識別する本文ID(識別子)が付与されている。以下の説明では、本文データベース193に登録された本文データのことを、単に本文ともいう。
一方、要約文データベース192には、本文データベース193に登録された各本文データについての要約文が登録されている。図4に示すように、要約文データベース192に登録された要約文データには、それぞれの要約文データを識別する要約文IDが付与されている。各要約文データには、元の本文データについての本文IDが対応付けられている。例えば、要約文IDが1001である要約文データは、本文IDが10001である本文データの文書内容を要約した文のデータである。以下の説明では、要約文データベース192に登録された要約文データのことを、単に要約文ともいう。
図5は、言語間関係テーブルの例を示す図である。
言語間関係テーブル194には、英単語と、該英単語の他言語(処理対象のテキストの言語)での読みと、英語表記における略語候補との対応関係が登録されている。処理対象のテキストの言語が日本語である場合、言語間関係テーブル194には、図5に示すように、英単語と、該英単語の日本語での読み(表記)と、英語表記における略語候補との組が複数組登録されている。ここで、1個の英単語に対する略語候補は、複数であってもよい。
上記の略語テーブル191、要約文データベース192、本文データベース193、及び言語間関係テーブル194は、それぞれ、予め作成して記憶部190に記憶させておき、適宜更新する。
本実施形態に係る言語処理装置1が行う言語処理の1つは、入力されたテキストデータに含まれる略語を正式名称に変換して出力する処理である。図6から図10までの各図を参照して、言語処理装置1が行う上記の言語処理の内容を説明する。なお、以下の説明では、処理対象のテキスト、要約文データベース192に登録された要約文、及び本文データベース193に登録された本文の言語を日本語とする。
図6は、第1の実施形態に係る言語処理の内容を説明するフローチャートである。
本実施形態に係る言語処理装置1は、図6に示すように、まず、処理対象のテキストデータの入力を受け付ける(ステップS1)。ステップS1の処理は、入力部110が行う。入力部110は、言語処理装置1のオペレータ(利用者)がキーボード等を操作して入力したテキストデータ、或いは該オペレータが処理対象に指定したテキストデータをキーワード抽出部120に渡す。
次に、言語処理装置1は、入力されたテキストからキーワードを抽出するキーワード抽出処理を行う(ステップS2)。ステップS2の処理は、キーワード抽出部120が行う。キーワード抽出部120は、入力されたテキストの形態素解析を行い、テキストに含まれる略語と、該略語についての特徴語との組を含むキーワードを抽出する。キーワード抽出部120は、例えば、アルファベットの大文字のみの形態素、未知のカタカナ語、及び略語テーブル191に登録された日本語の略語を、変換対象の略語として抽出する。また、キーワード抽出部120は、抽出した略語毎に、該略語の係り受け語、或いは該略語と複合語の関係にある語等を特徴語として抽出する。キーワード抽出部120は、抽出したキーワードを文書抽出部130に渡す。また、キーワード抽出部120は、テキストの形態素解析の結果を変換部160に渡す。
次に、言語処理装置1は、ステップS2で抽出したキーワードを含む文書を本文データベース193から抽出する文書抽出処理を行う(ステップS3)。ステップS3の処理は、文書抽出部130が行う。文書抽出部130は、まず、要約文検索部131において要約文データベース192を検索し、キーワードを含む要約文を抽出する。その後、文書抽出部130は、本文検索部132において本文データベース193を検索し、抽出した要約文と対応付けられた本文データを抽出する。文書抽出部130は、キーワードと、抽出した本文データとを原語候補抽出部140に渡す。
次に、言語処理装置1は、キーワードに含まれる略語についての原語の候補を本文データから抽出する原語候補抽出処理を行う(ステップS4)。ステップS4の処理は、原語候補抽出部140が行う。原語候補抽出部140は、言語間関係テーブル194を参照してアルファベットの大文字のみの略語についての原語候補を抽出する。また、原語候補抽出部140は、略語テーブル191を参照して本文データから日本語表記の略語についての原語候補を抽出する。更に、原語候補抽出部140は、本文データのカタカナ語のなかから、カタカナ表記の略語についての原語候補を抽出する。原語候補抽出部140は、キーワードと、抽出した原語候補と、本文データと、を原語特定部150に渡す。
次に、言語処理装置1は、抽出した原語候補のなかから略語の原語を特定する原語特定処理(ステップS5)を行う。ステップS5の処理は、原語特定部150が行う。原語特定部150は、まず、本文に特徴語又は特徴語の類義語が含まれるか否かを判定する。そして、本文に特徴語又は特徴語の類義語が含まれる場合、原語特定部150は、本文の形態素解析を行い、特徴語と対応付けられた略語についての原語候補の形態素から、特徴語又は特徴語の類義語までの語数(形態素数)を算出する。算出した語数が所定の閾値以下である場合、原語特定部150は、原語候補を略語の原語に特定する。原語特定部150は、略語と、特定した原語とを変換部160に渡す。
次に、言語処理装置1は、処理対象のテキストの略語を原語に変換する(ステップS6)。ステップS6の処理は、変換部160が行う。変換部160は、処理対象のテキストにおける略語を原語特定部150で特定した原語に変換する。変換部160は、略語を原語に変換したテキストデータを出力部170に渡す。なお、ステップS3〜S5の処理でテキストに含まれる略語に対する原語を特定できなかった場合、変換部160は、入力されたテキストデータをそのまま出力部170に渡す。
入力されたテキストデータに対するステップS2〜S6の処理を終えると、言語処理装置1は、テキストデータを出力する(ステップS7)。ステップS7の処理は、出力部170が行う。出力部170は、例えば、変換部160から受け取ったテキストデータを音声に変換して出力する。また、出力部170は、例えば、変換部160から受け取ったテキストデータの文章を可視化して表示する。出力部170がステップS7の処理を終えると、言語処理装置1は、入力されたテキストデータに対する言語処理を終了する。
図6のフローチャートにおけるキーワード抽出処理(ステップS2)は、キーワード抽出部120が行う。キーワード抽出部120は、キーワード抽出処理として、例えば、図7に示した処理を行う。
図7は、キーワード抽出処理の内容を説明するフローチャートである。
キーワード抽出処理において、キーワード抽出部120は、まず、テキストの形態素解析を行う(ステップS201)。キーワード抽出部120は、既知の解析方法に従って、入力されたテキストを形態素に分割する。
次に、キーワード抽出部120は、形態素を1個選択し(ステップS202)、選択した形態素の形態素長がN以下であるか否かを判定する(ステップS203)。ステップS202において、キーワード抽出部120は、所定の選択規則に従って形態素を選択する。選択規則は、例えば、名詞(複合名詞を含む)である形態素、或いは品詞が不明である形態素のうちの、未選択であり、かつテキストにおける出現順序が最も早い形態素を選択する、という規則にする。
形態素長がNよりも長い場合(ステップS203;NO)、キーワード抽出部120は、選択した形態素が略語ではないと認識し、次に、未処理の形態素があるか否かを判定する(ステップS208)。未処理の形態素がある場合(ステップS208;YES)、キーワード抽出部120は、次に、ステップS202の処理を行う。処理対象である全ての形態素に対する処理を行った場合(ステップS208;NO)、キーワード抽出部120は、キーワード抽出処理を終了する。
これに対し、形態素長がN以下である場合(ステップS203;YES)、キーワード抽出部120は、次に、選択した形態素が全てアルファベットの大文字であるか否かを判定する(ステップS204)。選択した形態素が全てアルファベットの大文字である場合(ステップS204;YES)、キーワード抽出部120は、次に、選択した形態素を略語とし、略語と、略語に対する特徴語との組をキーワードとして抽出する(ステップS205)。ステップS205において、キーワード抽出部120は、形態素解析の結果に基づいて、選択した形態素(略語)の係り受け語、或いは該形態素と複合語の関係にある語を特徴語として抽出する。その後、キーワード抽出部120は、選択した略語と、該略語についての特徴語とを対応付けて1組のキーワードとする。この際、キーワード抽出部120は、抽出したキーワードに対し、各キーワードを識別する識別子を付与する。キーワードに付与する識別子は、例えば、キーワードの抽出順を示す1から始まる整数値とする。ステップS205の処理を行った後、キーワード抽出部120は、ステップS208の判定を行う。
また、選択した形態素にアルファベットの大文字ではない文字が含まれる場合(ステップS204;NO)、キーワード抽出部120は、次に、選択した形態素が未知のカタカナ語であるか否かを判定する(ステップS206)。形態素が未知のカタカナ語である場合(ステップS206;YES)、キーワード抽出部120は、ステップS205の処理を行い、キーワードを抽出する。その後、キーワード抽出部120は、ステップS208の判定を行う。
更に、選択した形態素が未知のカタカナ語でもない場合(ステップS206;NO)、キーワード抽出部120は、次に、選択した形態素(語句)が略語テーブルに登録されているか否かを判定する(ステップS207)。ステップS207において、キーワード抽出部120は、選択した形態素を検索キーとして記憶部190の略語テーブル191を検索し、該形態素が略語テーブル191に登録されているか否かを判定する。選択した形態素が略語テーブル191に登録されている場合(ステップS207;YES)、キーワード抽出部120は、ステップS205の処理を行い、キーワードを抽出する。その後、キーワード抽出部120は、ステップS208の判定を行う。
一方、選択した形態素が略語テーブル191に登録されていない場合(ステップS207;NO)、キーワード抽出部120は、選択した形態素が略語ではないと認識し、次に、ステップS208の判定を行う。
上記の手順で、処理対象である全ての形態素に対するステップS202以降の処理を行うと、キーワード抽出部120は、キーワード抽出処理を終了する。
このように、本実施形態に係る言語処理では、処理対象のテキストに含まれる略語として、全てアルファベットの大文字である形態素に加え、未知のカタカナ語や、日本語表記での略語と対応する形態素を抽出する。更に、本実施形態に係る言語処理では、略語と判定した形態素の係り受け語、或いは該形態素と複合語の関係にある語を特徴語として抽出し、略語と特徴語とを含むキーワードを抽出する。
キーワード抽出処理が終了すると、言語処理装置1では、次に、文書抽出部130が文書抽出処理(ステップS3)を行う。文書抽出部130は、文書抽出処理として、例えば、図8に示した処理を行う。
図8は、文書抽出処理の内容を説明するフローチャートである。
文書抽出処理において、文書抽出部130は、まず、略語と特徴語との組(キーワード)を1組選択する(ステップS301)。ステップS301において、文書抽出部130は、所定の選択規則に従ってキーワードを選択する。選択規則は、例えば、キーワード抽出処理において抽出したキーワードのうち、未選択であり、かつ抽出順序が最も早いキーワード(識別子が最小値のキーワード)を選択する、という規則にする。
次に、文書抽出部130は、選択した略語と特徴語との組をキーワードとして要約文データベース192を検索する(ステップS302)。ステップS302の処理は、要約文検索部131が行う。要約文検索部131は、例えば、図4に示した要約文データベース192に登録された要約文毎に、選択したキーワードの略語及び特徴語が含まれるか否かを検索する。選択したキーワードの略語及び特徴語を含む要約文があった場合、要約文検索部131は、当該要約文の要約文IDと、要約文に対応付けられた本文IDとを抽出して保持する。
要約文検索部131は、要約文データベース192の検索を終えると、次に、要約文IDを保持しているか否かに基づいて、キーワードを含む要約文があるか否かを判定する(ステップS303)。キーワードを含む要約文がなかった場合(ステップS303;NO)、文書抽出部130(要約文検索部131)は、次に、未選択の略語と特徴語との組があるか否かを判定する(ステップS306)。未選択の組がある場合(ステップS306;YES)、文書抽出部130は、次に、ステップS301の処理を行う。全ての組が選択済みである場合(ステップS306;NO)、文書抽出部130は、文書抽出処理を終了する。
これに対し、キーワードを含む要約文があった場合(ステップS303;YES)、文書抽出部130は、次に、要約文と対応付けられた本文IDを検索キーとして本文データベース193を検索し、本文を取得する(ステップS304)。ステップS304の処理は、本文検索部132が行う。本文検索部132は、例えば、図3に示した本文データベース193に登録された複数の本文のなかから、要約文と対応付けられた本文IDを付与した本文を抽出する。
要約文と対応する本文を取得すると、文書抽出部130(本文検索部132)は、キーワードと、取得した本文とを対応付ける(ステップS305)。ステップS305の処理を終えると、文書抽出部(要約文検索部131)は、次に、ステップS306の判定を行う。
上記の手順で、テキストから抽出した全てのキーワード(略語と特徴語との組)に対するステップS301以降の処理を行うと、文書抽出部130は、文書抽出処理を終了する。
このように、本実施形態に係る言語処理では、本文の内容を短くまとめた要約文(タイトルを含む)に略語又は略語に対する特徴語を含まれる場合に、該要約文の元である本文を抽出する。要約文に略語が含まれる場合、該要約文の元である本文には、要約文中の略語や該略語の原語が含まれる可能性が高い。また、テキストから抽出した略語と特徴語との組が要約文に含まれる場合、該要約文の本文に含まれる略語又は略語の原語の近傍に、略語と対応付けた特徴語又は特徴語の類義語が存在する可能性が高い。このため、略語の係り受け語や略語と複合語の関係にある特徴語が要約文に含まれる場合、本文において特徴語の近傍にある略語の原語は、テキストに含まれる略語に対する適切な原語である可能性が高い。
文書抽出処理が終了すると、言語処理装置1では、次に、原語候補抽出部140が原語候補抽出処理(ステップS4)を行う。原語候補抽出部140は、原語候補抽出処理として、例えば、図9A及び図9Bに示した処理を行う。
図9Aは、原語候補抽出処理の内容を説明するフローチャート(その1)である。図9Bは、原語候補抽出処理の内容を説明するフローチャート(その2)である。
原語候補抽出処理において、原語候補抽出部140は、まず、略語を1個選択する(ステップS401)。ステップS401において、原語候補抽出部140は、所定の選択規則に従ってキーワードを選択する。選択規則は、例えば、キーワード抽出処理において抽出したキーワードのうち、未選択であり、かつ抽出順序が最も早いキーワード(識別子が最小値のキーワード)に含まれる略語を選択する、という規則にする。
次に、原語候補抽出部140は、選択した略語が全てアルファベットの大文字の語であるか否かを判定する(ステップS402)。
選択した略語が全てアルファベットの大文字の語である場合(ステップS402;YES)、原語候補抽出部140は、次に、本文中のカタカナ語を抽出する(ステップS403)。文書抽出部130で複数の本文を抽出した場合、原語候補抽出部140は、本文毎にカタカナ語を抽出する。なお、ステップS403において、原語候補抽出部140は、例えば、文書抽出部130で抽出した本文に含まれる全てのカタカナ語のうちの、略語よりも文字数の多いカタカナ語のみを抽出してもよい。
次に、原語候補抽出部140は、抽出したカタカナ語と、言語間関係テーブル194とに基づいて、略語候補を生成する(ステップS404)。原語候補抽出部140は、例えば、図5に示した言語間関係テーブル194の日本語読みを検索し、カタカナ語に含まれる文字列と一致する日本語読みと対応付けられた略語候補を抽出する。ここで、1個のカタカナ語が複数の英単語の日本語読みを組み合わせた語である場合、原語候補抽出部140は、それぞれの日本語読みと対応する略語候補を日本語読みと同一の並び順にした略語候補を生成する。また、1個の日本語読みに複数の略語候補が対応付けられている場合、原語候補抽出部140は、それぞれの略語候補を組み合わせて複数通りの略語候補を生成する。
次に、原語候補抽出部140は、生成した略語候補のなかに、テキストから抽出した略語と一致する略語候補があるか否かを判定する(ステップS405)。略語と一致する略語候補がある場合(ステップS405;YES)、原語候補抽出部140は、一致した略語候補と対応するカタカナ語を、選択した略語の原語候補として抽出する(ステップS406)。一方、略語と一致する略語候補がない場合(ステップS405;NO)、原語候補抽出部140は、選択した略語の原語候補がないことを示す情報を生成する(ステップS407)。
ステップS406又はS407の処理を終えると、原語候補抽出部140は、未選択の略語があるか否かを判定する(ステップS416)。未選択の略語がある場合(ステップS416;YES)、原語候補抽出部140は、次に、ステップS401の処理を行う。全ての略語が選択済みである場合(ステップS416;NO)、原語候補抽出部140は、原語候補抽出処理を終了する。
これに対し、ステップS401で選択した略語がアルファベットの大文字ではない文字を含む語である場合(ステップS402;NO)、原語候補抽出部140は、次に、図9Bに示すように、選択した略語がカタカナ語であるか否かを判定する(ステップS408)。選択した略語がカタカナ語である場合(ステップS408;YES)、原語候補抽出部140は、次に、本文中のカタカナ語を抽出する(ステップS409)。ステップS409において、原語候補抽出部140は、ステップS403と同様の処理を行い、本文中のカタカナ語を抽出する。
次に、原語候補抽出部140は、選択した略語(カタカナ語)が本文から抽出したカタカナ語の一部であるか否かを判定する(ステップS410)。ステップS410において、原語候補抽出部140は、例えば、本文から抽出したカタカナ語毎に、選択した略語に含まれるカタカナが略語内での並び順通りに出現するか否かを判定する。本文から抽出したカタカナ語のなかに、選択した略語に含まれるカタカナが略語内での並び順通りに出現する場合、原語候補抽出部140は、選択した略語が本文から抽出したカタカナ語の一部である(ステップS410;YES)と判定する。選択した略語が本文から抽出したカタカナ語の一部である場合(ステップS410;YES)、原語候補抽出部140は、本文から抽出したカタカナ語を原語候補として抽出する(ステップS411)。この場合、原語候補抽出部140は、次に、図9AのステップS416の判定を行う。一方、選択した略語が本文から抽出したカタカナ語の一部ではない場合(ステップS410;NO)、原語候補抽出部140は、次に、図9AのステップS407の処理を行い、選択した略語の原語候補がないことを示す情報を生成する。その後、原語候補抽出部140は、ステップS416の判定を行う。
また、選択した略語がカタカナ語ではない場合(ステップS408;NO)、原語候補抽出部140は、次に、略語テーブル191を参照して略語と対応する原語を抽出する(ステップS412)。処理対象のテキストから抽出した略語は、全てがアルファベットの大文字である語、未知のカタカナ語、及び略語テーブル191に登録された日本語表記の略語のいずれかである。したがって、ステップS401で選択した略語がアルファベットの大文字とは異なる文字を含み、かつカタカナ語ではない場合、選択した略語は略語テーブル191に登録された日本語表記の略語となる。よって、ステップS412において、原語候補抽出部140は、選択した略語と対応する原語を1個抽出する。
次に、原語候補抽出部140は、抽出した原語を検索キーとして本文を検索し(ステップS413)、抽出した原語が本文中にあるか否かを判定する(ステップS414)。抽出した原語が本文中にある場合(ステップS414;YES)、原語候補抽出部140は、次に、本文に含まれる原語を原語候補として抽出する(ステップS415)。この場合、原語候補抽出部140は、次に、図9AのステップS416の判定を行う。一方、抽出した原語が本文中にない場合(ステップS414;NO)、原語候補抽出部140は、次に、図9AのステップS407の処理を行い、選択した略語の原語候補がないことを示す情報を生成する。その後、原語候補抽出部140は、ステップS416の判定を行う。
上記の手順で、テキストから抽出した全ての略語に対するステップS401以降の処理を行うと、原語候補抽出部140は、原語候補抽出処理を終了する。
このように、本実施形態に係る言語処理では、テキストから抽出した略語が全てアルファベットの大文字である場合、本文中のカタカナ語と、言語間関係テーブル194とに基づいて生成した略語候補とに基づいて、原語候補を抽出する。また、本実施形態に係る言語処理では、テキストから抽出した略語が未知のカタカナ語である場合、本文中のカタカナ語と、略語におけるカタカナの並び順とに基づいて、原語候補を抽出する。原語候補を抽出する本文は、上記の通り、テキストから抽出した略語に対する適切な原語を含む可能性が高い。このため、本実施形態に係る言語処理における原語候補抽出処理で抽出した原語候補は、テキストから抽出した略語に対する適切な原語である可能性が高い。すなわち、テキストから抽出した略語に対する原語が複数通りある場合でも、原語候補抽出処理で抽出した原語候補は、複数通りの原語のうちの、テキストから抽出した略語に対する適切な原語である可能性が高い。
原語候補抽出処理が終了すると、言語処理装置1では、次に、原語特定部150が原語特定処理(ステップS5)を行う。原語特定部150は、原語特定処理として、例えば、図10に示した処理を行う。
図10は、原語特定処理の内容を説明するフローチャートである。
原語特定処理において、原語特定部150は、まず、略語と、特徴語と、原語候補との組を1組選択する(ステップS501)。ステップS501において、原語特定部150は、所定の選択規則に従って略語と、特徴語と、原語候補との組を選択する。選択規則は、例えば、キーワード抽出処理において抽出したキーワードのうち、未選択であり、かつ抽出順序が最も早いキーワード(識別子が最小値のキーワード)と、当該キーワードに含まれる略語に対する原語候補との組を選択する、という規則にする。
次に、原語特定部150は、本文を検索し(ステップS502)、特徴語又は特徴語の類義語が本文中にあるか否かを判定する(ステップS503)。
特徴語及び特徴語の類義語が本文中にない場合(ステップS503;NO)、原語特定部150は、次に、未選択の略語と特徴語と原語候補との組があるか否かを判定する(ステップS507)。未選択の組がある場合(ステップS507;YES)、原語特定部150は、次に、ステップS501の処理を行う。全ての組が選択済みである場合(ステップS506;NO)、原語特定部150は、原語特定処理を終了する。
これに対し、特徴語又は特徴語の類義語が本文中にある場合(ステップS503;YES)、原語特定部150は、次に、本文の形態素解析を行う(ステップS504)。ステップS504において、原語特定部150は、既知の解析方法に従って、本文を形態素に分割する。
次に、原語特定部150は、形態素解析の結果に基づいて、原語候補から特徴語又は特徴語の類義語までの語数(形態素数)を算出し、算出した語数が閾値以下であるか否かを判定する(ステップS505)。ステップS505の判定における閾値は、例えば、10程度の値とする。算出した語数が閾値よりも大きい場合(ステップS505;NO)、原語特定部150は、次に、ステップS507の判定を行う。
一方、算出した語数が閾値以下である場合(ステップS505;YES)、原語特定部150は、原語候補を略語の原語に決定する(ステップS506)。その後、原語特定部150は、ステップS507の判定を行う。
上記の手順で、全ての略語、特徴語、及び原語候補の組に対するステップS501以降の処理を行うと、原語特定部150は、原語特定処理を終了する。
このように、本実施形態に係る言語処理では、本文中における原語候補から、特徴語又は特徴語の類義語までの語数が閾値以下である場合にのみ、当該原語候補をテキストから抽出した略語に対する原語に特定する。要約文における全てアルファベットの大文字である略語やカタカナの略語は、当該要約文の元となる本文中ではカタカナ語として原語で記載されている場合が多い。更に、本文中では、全てアルファベットの大文字である略語や、カタカナの略語についての原語の近くに、略語と対応する特徴語又は特徴語の類義語が記載されていることが多い。このため、テキスト中の略語を含む要約文と対応する本文中における、テキスト中の略語に対する原語候補と、特徴語又は特徴語の類義語との語数(距離)が閾値以下である場合、原語候補が略語の適切な原語である可能性が非常に高くなる。よって、1個の略語に対する原語が複数通りある場合でも、本文中における略語(原語候補)と特徴語との位置関係に基づいて、複数通りの原語の中からテキストの略語の原語として適切な原語を抽出することが可能となる。
図11Aは、第1の実施形態に係る言語処理の具体例を説明する図(その1)である。図11Bは、第1の実施形態に係る言語処理の具体例を説明する図(その2)である。
図11Aの(a)には、入力されるテキスト201の例を示している。テキスト201は、アルファベットの大文字を組み合わせた「PT」という語201aを含む。テキスト201に対して形態素解析を行うと、テキスト201は、例えば、図11Aの(b)に示した解析結果202のように10個の形態素に分割される。なお、解析結果202における「 / 」は、形態素の区切りを示す。
解析結果202に基づいて、図7のステップS202〜S208の処理を行うと、アルファベットの大文字を組み合わせた「PT」という形態素202aが略語として抽出される。また、略語(形態素202a)に対する特徴語として、「PT」と複合語の関係にある「与党」という形態素202bが抽出される。すなわち、テキスト201に対するキーワード抽出処理(ステップS2)を行うと、キーワード抽出部120は、図11Aの(c)のテーブル203のように、「PT」と「与党」との組を略語と特徴語との組(キーワード)として抽出する(ステップS205)。
その後、要約文検索部131が、「PT」と「与党」との組をキーワードとして、図4の要約文データベース192を検索し、要約文IDが1001の要約文を、キーワードを含む要約文として抽出する(ステップS302)。続けて、本文検索部132が、図3の本文データベース193から、要約文ID(=1001)と対応付けられた、本文IDが10001である本文を取得する(ステップS304)。すなわち、文書抽出処理において図4の要約文データベース192及び図3の本文データベース193を参照して本文を抽出する場合、図11Aの(d)のテーブル204のように、要約文IDと対応付けられた本文IDの本文データを、本文データベース193から抽出する。抽出した本文データは、「PT」という形態素(略語)202aの原語候補である「プロジェクトチーム」というカタカナ語204aと、特徴語である「与党」という語を含む。
文書抽出処理の後、言語処理装置1では、原語候補抽出部140が原語候補抽出処理を行う。原語候補抽出処理において、原語候補抽出部140は、まず、略語が全てアルファベットの大文字であるか否かを判定する(ステップS401)。テーブル203に示した略語「PT」は、全てアルファベットの大文字である。このため、原語候補抽出部140は、次に、図9AのステップS403〜S407の処理を行う。これらの処理において、原語候補抽出部140は、図11Bの(e)のテーブル205のように、まず、本文中のカタカナ語「プロジェクトチーム」を抽出する(ステップS403)。次に、原語候補抽出部140は、図5の言語間関係テーブル194を参照し、「プロジェクトチーム」を英語化した語、プロジェクト(project)の略語、及びチーム(team)の略語を取得し、略語候補を生成する(ステップS404)。プロジェクトには「P」及び「PJ」を含む複数通りの略語候補があり、チームには「T」を含む複数の略語候補がある。このため、原語候補抽出部140は、「プロジェクトチーム」の略語候補として、これらの略語候補を組み合わせた「PT」及び「PJT」を含む複数通りの略語候補を生成する。
原語候補抽出部140で生成した複数の略語候補のうちの「PT」という略語候補205aは、テキスト201から抽出した略語「PT」と一致する。このため、原語候補抽出部140は、テキスト201から抽出した略語「PT」の原語候補として、「プロジェクトチーム」を抽出する(ステップS406)。
その後、言語処理装置1では、原語特定部150が、図11Bの(f)に示したように、本文に対する形態素解析の解析結果206に基づいて、原語候補である「プロジェクトチーム」から特徴語である「与党」までの距離(語数又は形態素数)を算出する。図11Bの(f)に示したように、解析結果206では、原語候補である「プロジェクトチーム」という形態素206aの直前が特徴語である「与党」という形態素206bであるため、原語候補から特徴語までの語数は「1」となる。よって、ステップS505の判定における閾値を「10」とした場合、原語特定部150は、原語候補である「プロジェクトチーム」という形態素206aを、テキスト201の略語「PT」に対する原語に決定する(ステップS506)。これにより、変換部160は、図11Bの(g)に示したテーブル207のように、入力したテキストにおける「PT」という略語201aを、「プロジェクトチーム」という原語(形態素)207aに変換したテキストを生成して出力する。
テキスト201における略語「PT」は、上記のように「フィジカルセラピスト」の略語でもある。しかしながら、テキスト201のように略語「PT」に対する特徴語が「与党」である場合、特徴語である「与党」の近傍に原語候補の「プロジェクトチーム」がある本文のみが抽出される。これにより、略語「PT」のように原語が複数通りある場合でも、テキスト201における略語に対する適切な原語「プロジェクトチーム」を特定することが可能となる。よって、本実施形態によれば、1個の略語に対する複数の原語候補のなかから適切な原語を特定することが可能となる。
なお、図6から図10に示したフローチャートは、本実施形態に係る言語処理装置1が行う言語処理の一例に過ぎない。本実施形態に係る言語処理装置1が行う言語処理は、上記の要旨を逸脱しない範囲において、適宜変更可能である。例えば、テキストから抽出する略語は、全てアルファベットの大文字の略語のみであってもよい。また、例えば、テキスト抽出処理におけるステップS204の判定条件や、原語候補抽出処理におけるステップS402の判定条件は、全てアルファベットで大文字が2文字以上であるか否か、或いはアルファベットと数字のみであるか否か等としてもよい。更に、図6に示したステップS1〜S7の処理は、処理対象のテキストデータに含まれる文書を段落毎、或いは一文毎分割し、段落毎或いは一文毎に行ってもよいし、段落毎或いは一文毎にステップS1〜S7の処理を行う場合、これらの処理をパイクライン化して行ってもよい。
また、図2の略語テーブル191及び図5の言語間関係テーブル194は、それぞれ、本実施形態に係る言語処理で参照する略語テーブル191及び言語間関係テーブル194の例に過ぎない。同様に、図3の本文データベース193及び図4の要約文データベース192は、それぞれ、本実施形態に係る言語処理で参照する本文データベース193及び要約文データベース192の例に過ぎない。略語テーブル191、要約文データベース192、本文データベース193、及び言語間関係テーブル194は、それぞれ、適宜変更可能である。また、本実施形態に係る文書抽出処理では、要約文データベース192と、本文データベース193との2つのデータベースを参照する代わりに、該2個のデータベースを1個にまとめた文書データベースを参照して本文を抽出してもよい。
図12は、文書データベースの例を示す図である。
図12に示したように、要約文データベース192と、本文データベース193とを1個のデータベースにまとめた文書データベース195は、本文と、本文の内容を短くまとめた要約文との組に対し、1個の文書IDを付与している。このため、別個に生成した要約文データベース192と、本文データベース193とに基づいて本文を抽出する場合に比べて、本文を抽出するまでの処理数を低減させることが可能となる。よって、要約文データベース192と、本文データベース193との組の変わりに、文書データベース195を記憶部190に登録して文書抽出処理(ステップS3)を行うことにより、言語処理装置1の処理負荷を軽減することが可能となる。なお、要約文データベース192及び本文データベース193の代わりに文書データベース195を利用する場合、文書抽出部130の要約文検索部131と本文検索部132とは、1個の検索部に統合することが可能である。
更に、処理対象のテキストの言語は、本実施形態で例示した日本語に限らず、英語を含む他の言語であってもよい。
[第2の実施形態]
本実施形態では、図1の言語処理装置1が行う言語処理のうちの文書抽出処理の別の例について説明する。すなわち、本実施形態に係る言語処理装置1は、入力部110と、キーワード抽出部120と、文書抽出部130と、原語候補抽出部140と、原語特定部150と、変換部160と、出力部170と、記憶部190とを備える。このうち、入力部110、キーワード抽出部120、原語候補抽出部140、原語特定部150、変換部160、出力部170、及び記憶部190は、それぞれ、第1の実施形態で説明した機能を備える。また、記憶部190に記憶させた略語テーブル191、要約文データベース192、本文データベース193、及び言語間関係テーブル194は、それぞれ、第1の実施形態で説明した情報を含む(図2〜図5を参照)。
更に、本実施形態に係る言語処理装置1における文書抽出部130は、要約文検索部131と、本文検索部132とを含む。このうち、要約文検索部131は、第1の実施形態で説明した機能を備える。一方、本実施形態に係る本文検索部132は、要約文検索部131で抽出した要約文と対応付けられた本文と、当該本文との類似度が高い他の本文とを抽出し、これらの本文を利用して、テキストから抽出した略語についての原語を特定する。
本実施形態に係る言語処理装置1が行う言語処理は、図6に示したステップS1〜S7と同じ手順で行われる。ただし、本実施形態に係る言語処理では、図6の文書抽出処理(ステップS3)として、図13に示した処理を行う。
図13は、第2の実施形態に係る言語処理における文書抽出処理の内容を説明するフローチャートである。
本実施形態に係る文書抽出処理は、第1の実施形態と同様、文書抽出部130が行う。本実施形態に係る文書抽出処理において、文書抽出部130は、まず、略語と特徴語との組(キーワード)を1組選択する(ステップS301)。ステップS301において、文書抽出部130は、第1の実施形態で説明したように、所定の選択規則に従ってキーワードを選択する。
次に、文書抽出部130は、選択した略語と特徴語との組をキーワードとして要約文データベース192を検索する(ステップS302)。ステップS302の処理は、要約文検索部131が行う。要約文検索部131は、例えば、図4に示した要約文データベース192に登録された要約文毎に、選択したキーワードの略語及び特徴語が含まれるか否かを検索する。選択したキーワードの略語及び特徴語を含む要約文があった場合、要約文検索部131は、当該要約文の要約文IDと、要約文に対応付けられた本文IDとを抽出して保持する。
要約文検索部131は、要約文データベース192の検索を終えると、次に、要約文IDを保持しているか否かに基づいて、キーワードを含む要約文があるか否かを判定する(ステップS303)。キーワードを含む要約文がなかった場合(ステップS303;NO)、文書抽出部130(要約文検索部131)は、次に、未選択の略語と特徴語との組があるか否かを判定する(ステップS306)。未選択の組がある場合(ステップS306;YES)、文書抽出部130は、次に、ステップS301の処理を行う。全ての組が選択済みである場合(ステップS306;NO)、文書抽出部130は、次に、ステップS307,S308の処理を行う。
これに対し、キーワードを含む要約文があった場合(ステップS303;YES)、文書抽出部130は、次に、要約文と対応付けられた本文IDを検索キーとして本文データベース193を検索し、本文を取得する(ステップS304)。ステップS304の処理は、本文検索部132が行う。本文検索部132は、例えば、図3に示した本文データベース193に登録された複数の本文のなかから、要約文と対応付けられた本文IDを付与した本文を抽出する。
要約文と対応する本文を取得すると、文書抽出部130(本文検索部132)は、キーワードと、取得した本文とを対応付ける(ステップS305)。ステップS305の処理を終えると、文書抽出部(要約文検索部131)は、次に、ステップS306の判定を行う。
上記の手順で、テキストから抽出した全てのキーワード(略語と特徴語との組)に対するステップS301以降の処理を行うと(ステップS306;NO)、文書抽出部130(本文検索部132)は、ステップS307,S308の処理を行う。ステップS307の処理は、取得した本文中の単語と、他の本文中の単語との類似度に基づいて、本文同士の類似度を算出する処理である。また、ステップS308の処理は、ステップS307で算出した類似度の高い本文を、原語候補抽出処理及び原語特定処理の処理対象に追加する処理である。
ステップS307において、本文検索部132は、例えば、ステップS304で取得した本文とは別の本文(他の本文)のそれぞれについて、取得した本文との類似度を算出する。本文検索部132は、本文同士の類似度として、取得した本文中の単語と、他の本文中の単語とに対する、コサイン類似度と、Term Frequency - Inverse Document Frequency(TF−IDF)とに基づいて、本文同士の類似度を算出する。ここで、コサイン類似度は、ベクトルAとベクトルBとの組に対し、下記式(1)により算出される値cos(A,B)であり、ベクトルAとベクトルBとの類似度が高いほど算出した値cos(A,B)が1に近い値となる。
cos(A,B)=(A・B)/(|A||B|) ・・・(1)
式(1)により本文同士の類似度を算出する方法の1つとして、文書中の単語の集合により比較照合を行うBag of Wordを用いた方法がある。この方法では、ベクトルAの成分を、ステップS304で取得した本文について形態素解析を行い、それぞれの形態素毎にTF−IDFを算出したものとする。また、ベクトルBの成分を、他の本文について形態素解析を行い、それぞれの形態素毎にTF−IDFを算出したものとする。
次に、本文検索部132は、ステップS304で取得した本文とは別の本文のなかから、取得した本文との類似度の高い本文を所定の数だけ抽出し、抽出した本文を、関連文書として、原語候補の抽出及び原語の特定に用いる本文に追加する(ステップS308)。
ステップS307,S308の処理を終えると、文書抽出部130は、文書抽出処理を終了する。
このように、本実施形態に係る言語処理における文書抽出処理では、略語及び特徴語を含む要約文の元文書である本文との類似度の高い他の本文を、原語候補の抽出及び原語の特定に用いる本文に追加する。したがって、本実施形態では、略語又は特徴語を含まない要約文の元文書である本文を、原語候補の抽出及び原語の特定に利用可能となる。
図14は、要約文中の略語の有無と本文中の原語の有無とのパターンを説明する図である。
図14のテーブル210には、要約文中の略語の有無と本文中の原語の有無との関係についての4通りのパターンを示している。第1のパターンは、要約文中に略語があり、当該略語と対応する原語が本文中にあるというパターンである。第2のパターンは、要約文中に略語があるが、当該略語と対応する原語が本文中にないというパターンである。第3のパターンは、要約文中に略語はないが、本文中にテキストから抽出した略語と対応する原語があるというパターンである。そして、第4のパターンは、要約文中に略語がなく、しかも本文中に原語がないというパターンである。
本実施形態に係る文書抽出処理では、ステップS301〜S305の処理により、本文データベース193に登録された複数の本文のうち、第1のパターンに当てはまる本文と、第2のパターンに当てはまる本文とが抽出される。ここで、第1のパターンに当てはまる本文が抽出されれば、抽出した本文から原語候補を抽出し、テキストの略語に対する原語を特定することが可能である。しかしながら、第1のパターンに当てはまる本文が抽出されず、第2のパターンに当てはまる本文のみが抽出された場合、本文から原語候補を抽出することが困難となり、テキストの略語に対する適切な原語を特定することが困難となる。
これに対し、本実施形態に係る文書抽出処理では、ステップS301〜S305の処理により第1のパターン又は第2のパターンに当てはまる本文を抽出した後、ステップS307,S308により第3のパターンに当てはまる本文を抽出する。これにより、要約文中に略語又は特徴語はないものの、略語についての原語候補を含む本文を抽出することが可能となり、テキストの略語に対する適切な原語を、より確実に特定することが可能となる。
なお、図13のフローチャートは、本実施形態に係る文書抽出処理の一例に過ぎない。本実施形態に係る文書抽出処理は、上記の要旨を逸脱しない範囲において適宜変更可能である。例えば、ステップS306の判定は、ステップS307,S308の処理の後で行ってもよい。
[第3の実施形態]
図15は、第3の実施形態に係る言語処理システムのシステム構成を示す図である。
図15に示すように、本実施形態に係る言語処理システム3は、サーバ装置4と、ストレージ装置5と、クライアント端末7(7A〜7C)とを含む。サーバ装置4とクライアント端末7とは、インターネット等のネットワーク6を介して通信可能に接続される。本実施形態に係る言語処理システム3では、クライアント端末7からサーバ装置4にテキストデータを送信し、サーバ装置4においてテキストデータ中の略語を原語に変換する。この際、サーバ装置4は、ストレージ装置5に記憶させた各種情報を参照して、テキストデータ中の略語を原語に変換する。テキストデータ中の略語を原語に変換した後、サーバ装置4は、テキストデータをクライアント端末7に返送する。サーバ装置4からのテキストデータを受信したクライアント端末7は、受信したテキストデータを音声又は画像として出力する。なお、図15には3個のクライアント端末7を示しているが、言語処理システム3におけるクライアント端末7の数は、3個に限らず、1個又は2個であってもよいし、4個以上であってもよい。
図16は、第3の実施形態に係る言語処理システムの機能的構成を示す図である。
図16に示すように、クライアント端末7は、入力部710と、通信部720と、出力部730とを備える。
入力部710は、処理対象のテキストデータの入力を受け付ける。ここで、処理対象のテキストデータは、文章中の略語を原語(正式名称)に変換する文書データである。処理対象のテキストデータは、クライアント端末7のオペレータがキーボード等を操作して入力したデータであってもよいし、或いは外部装置から取得したデータであってもよい。
通信部720は、クライアント端末7をネットワーク6に接続し、ネットワーク6を介してサーバ装置4を含む各種通信装置との通信を行う。
出力部730は、略語を原語に変換したテキストを出力する。出力部730は、テキストを音声に変換して出力してもよいし、テキストを可視化して出力(表示)してもよい。
サーバ装置4は、変換処理部410と、通信部420とを含む。
変換処理部410は、テキストデータに含まれる略語を原語に変換する処理を行う。変換処理部410は、キーワード抽出部120と、文書抽出部130と、原語候補抽出部140と、原語特定部150と、変換部160とを含む。本実施形態のサーバ装置4におけるキーワード抽出部120、文書抽出部130、原語候補抽出部140、原語特定部150、及び変換部160は、それぞれ、第1の実施形態で説明した機能を備える。
通信部420は、サーバ装置4をネットワーク6に接続し、ネットワーク6を介してクライアント7を含む各種通信装置との通信を行う。また、通信部420は、変換処理部410においてテキストデータの略語を原語に変換する処理を行っている際等に、ストレージ装置5にアクセスする。
ストレージ装置5は、第1の実施形態に係る言語処理装置1における記憶部190に相当する記憶装置である。ストレージ装置5には、略語テーブル191と、要約文データベース192と、本文データベース193と、言語間関係テーブル194とを含む各種データを記憶させる。本実施形態における略語テーブル191、要約文データベース192、本文データベース193、及び言語間関係テーブル194は、それぞれ、第1の実施形態で説明したような情報を含む(図2〜図5を参照)。
本実施形態に係る言語処理システム3では、クライアント端末7からサーバ装置4に対してテキストデータを送信し、テキストデータ中の略語を原語に変換する処理をリクエストすると、サーバ装置4がテキストデータ中の略語を原語に変換する処理を行う。
図17は、第3の実施形態に係る言語処理システムが行う処理を説明するシーケンス図である。
本実施形態の言語処理システム3を利用する際には、まず、クライアント端末7においてテキストを入力し(ステップS801)、入力したテキストをサーバ装置4に送信する(ステップS802)。このとき、サーバ装置4は待機状態であり、クライアント端末7からのテキストを受信すると(ステップS811)、サーバ装置4は、受信したテキスト中の略語を原語に変換する処理を開始する。
テキストを受信した後、サーバ装置4は、まず、キーワード抽出処理を行う(ステップS812)。ステップS812の処理は、キーワード抽出部120が行う。キーワード抽出部120は、例えば、図7に示したキーワード抽出処理を行う。この際、キーワード抽出部120は、必要に応じてストレージ装置5に記憶させた略語テーブル191を参照する。
次に、サーバ装置4は、文書抽出処理を行う(ステップS813)。ステップS813の処理は、文書抽出部130が行う。文書抽出部130は、例えば、図8に示した文書抽出処理を行う。この際、文書抽出部130は、ストレージ装置5に記憶させた要約文データベース192を検索して要約文データを抽出するとともに、ストレージ装置5に記憶させた本文データベース193を検索して本文データを抽出する。
次に、サーバ装置4は、原語候補抽出処理を行う(ステップS814)。ステップS814の処理は、原語候補抽出部140が行う。原語候補抽出部140は、例えば、図9A及び図9Bに示した原語候補抽出処理を行う。この際、原語候補抽出部140は、ストレージ装置5に記憶させた言語間関係テーブル194を参照する。
次に、サーバ装置4は、原語特定処理を行う(ステップS815)。ステップS815の処理は、原語特定部150が行う。原語特定部150は、例えば、図10に示した原語特定処理を行う。この際、原語特定部150は、必要に応じてストレージ装置5に記憶させた略語テーブル191を参照する。
次に、サーバ装置4は、テキストの略語を原語特定処理で特定した言語に変換し(ステップS816)、テキストをクライアント端末7に返信する(ステップS817)。ステップS816の処理は、変換部160が行う。ステップS817の処理は、通信部420が行う。ステップS817の処理を終えると、サーバ装置4は、待機状態に戻る。
クライアント端末7は、サーバ装置4から返信されたテキストを受信すると(ステップS803)、受信したテキストを出力する(ステップS804)。このとき、クライアント端末7は、通信部720で受信したテキストを出力部730に渡す。テキストを受け取った出力部730は、テキストを音声又は画像に変換して出力する。テキストを出力した後、クライアント端末7は、待機状態となる。
このように、本実施形態に係る言語処理システム3では、クライアント端末7に入力されたテキストデータに含まれる略語を原語に変換する処理をサーバ装置4で行う。このため、クライアント端末7は、要約文データベース192や本文データベース193等の大容量のデータを保持する必要がない。よって、例えば、スマートフォンやタブレット型コンピュータ等をクライアント端末7として利用し、ネットワーク6等を介して配信されるニュース記事等における略語を原語に変換して出力する際に、クライアント端末7の処理負荷を軽減することが可能となる。
なお、本実施形態に係る言語処理システム3が行う処理は、第1の実施形態及び第2の実施形態で説明した言語処理装置1が行う処理と同様、適宜変更可能である。例えば、サーバ装置4の文書抽出部130が行う文書抽出処理(ステップS813)は、図13に示した処理であってもよい。また、テキストから抽出する略語は、全てアルファベットの大文字である語(形態素)のみであってもよい。
[第4の実施形態]
本実施形態では、言語処理システムの機能的構成の別の例を説明する。本実施形態に係る言語処理システム3は、サーバ装置4と、ストレージ装置5と、クライアント端末7(7A〜7C)とを含む。サーバ装置4とクライアント端末7とは、インターネット等のネットワーク6を介して通信可能に接続される。本実施形態に係る言語処理システム3では、クライアント端末7からサーバ装置4にテキストデータを送信し、サーバ装置4においてテキストデータ中の略語を原語に変換する。この際、サーバ装置4は、ストレージ装置5に記憶させた各種情報を参照して、テキストデータ中の略語を原語に変換する。テキストデータ中の略語を原語に変換した後、サーバ装置4は、テキストデータをクライアント端末7に返送する。サーバ装置4からのテキストデータを受信したクライアント端末7は、受信したテキストデータを音声又は画像として出力する。なお、図15には3個のクライアント端末7を示しているが、言語処理システム3におけるクライアント端末7の数は、3個に限らず、1個或いは2個でもよいし、4個以上であってもよい。
図18は、第4の実施形態に係る言語処理システムの機能的構成を示す図である。
図18に示すように、本実施形態に係るクライアント端末7は、入力部710と、通信部720と、出力部730とを備える。また、クライアント端末7は、変換処理部740と、記憶部790とを更に備える。
入力部710は、処理対象のテキストデータの入力を受け付ける。ここで、処理対象のテキストデータは、文章中の略語を原語(正式名称)に変換する文書データである。処理対象のテキストデータは、クライアント端末7のオペレータがキーボード等を操作して入力したデータであってもよいし、或いは外部装置から取得したデータであってもよい。
通信部720は、クライアント端末7をネットワーク6に接続し、ネットワーク6を介してサーバ装置4を含む各種通信装置との通信を行う。
出力部730は、略語を原語に変換したテキストを出力する。出力部730は、テキストを音声に変換して出力してもよいし、テキストを可視化して出力(表示)してもよい。
変換処理部740は、入力されたテキストデータの略語を原語に変換する処理のうちの一部の処理を行う。変換処理部740は、キーワード抽出部120と、原語候補抽出部140と、原語特定部150と、変換部160とを含む。本実施形態のクライアント装置7におけるキーワード抽出部120、原語候補抽出部140、原語特定部150、及び変換部160は、それぞれ、第1の実施形態で説明した機能を備える。
記憶部790は、変換処理部740が処理中に参照する略語テーブル191と、言語間関係テーブル194とを含む各種データを記憶する。
サーバ装置4は、文書抽出部130と、通信部420とを含む。
文書抽出部130は、テキストから抽出した略語と、該略語と関連付けられた特徴語との組に基づいて、当該略語と特徴語とを含む要約文と対応付けられた本文を抽出する。文書抽出部130は、要約文検索部131と、本文検索部132とを含む。
通信部420は、サーバ装置4をネットワーク6に接続し、ネットワーク6を介してクライアント7を含む各種通信装置との通信を行う。また、通信部420は、ストレージ装置5にアクセスして要約文データベース192の要約文の検索や、本文データベース193の本文の検索等を行う。
ストレージ装置5は、要約文データベース192と、本文データベース193とを含む各種データを記憶する。本実施形態における要約文データベース192、及び本文データベース193は、それぞれ、第1の実施形態で説明したような情報を含む(図3及び図4を参照)。
本実施形態に係る言語処理システム3では、テキストデータの略語を原語に変換する処理のうちの文書抽出処理(図6のステップS3)をサーバ装置4で行い、他の処理はクライアント端末7で行う。
図19は、第4の実施形態に係る言語処理システムが行う処理を説明するシーケンス図である。
本実施形態の言語処理システム3では、まず、クライアント端末7においてテキストを入力し(ステップS821)、入力したテキストからキーワードを抽出するキーワード抽出処理を行う(ステップS822)。ステップS822の処理は、キーワード抽出部120が行う。キーワード抽出部120は、例えば、図7に示したキーワード抽出処理を行う。この際、キーワード抽出部120は、必要に応じて記憶部790に記憶させた略語テーブル191を参照する。
次に、クライアント端末7は、抽出したキーワード(略語と特徴語との組)をサーバ装置4に送信する(ステップS823)。このとき、サーバ装置4は待機状態であり、クライアント端末7が送信したキーワードを受信すると(ステップS831)、サーバ装置4は、受信したキーワードと、ストレージ装置5の要約文データベース192と、本文データベース193とに基づいて、文書抽出処理を行う(ステップS832)。ステップS832の処理は、文書抽出部130が行う。文書抽出部130は、例えば、図8に示した文書抽出処理を行う。この際、文書抽出部130は、通信部420を介してストレージ装置5にアクセスし、要約文データベース192の検索や本文データベース193の検索を行う。
文書抽出処理を終えると、サーバ装置4は、抽出した本文をクライアント端末7に送信する(ステップS833)。その後、サーバ装置4は、待機状態に戻る。
クライアント端末7は、サーバ装置4が送信した本文を受信すると(ステップS824)、次に、原語候補抽出処理を行う(ステップS825)。ステップS825の処理は、原語候補抽出部140が行う。原語候補抽出部140は、例えば、図9A及び図9Bに示した処理を行う。
次に、クライアント端末7は、原語特定処理を行う(ステップS825)。ステップS825の処理は、原語特定部150が行う。原語特定部150は、例えば、図10に示した原語特定処理を行う。
次に、クライアント端末7は、テキストの略語を原語特定処理で特定した原語に変換し(ステップS827)、テキストを出力する(ステップS828)。ステップS827の処理は変換部160が行う。ステップS828の処理は、出力部730が行う。出力部730は、テキストを音声又は画像に変換して出力する。テキストを出力した後、クライアント端末7は、待機状態となる。
このように、本実施形態に係る言語処理システム3では、クライアント端末7に入力されたテキストデータに含まれる略語を原語に変換する処理の一部をサーバ装置4で行う。このため、クライアント端末7は、要約文データベース192や本文データベース193等の大容量のデータを保持する必要がない。よって、例えば、スマートフォンやタブレット型コンピュータ等をクライアント端末7として利用し、ネットワーク6等を介して配信されるニュース記事等における略語を原語に変換して出力する際に、クライアント端末7の処理負荷を軽減することが可能となる。
なお、図19のシーケンスは、テキストの略語を原語に変換する処理をクライアント端末7とサーバ装置4とで分担して行う場合の一例に過ぎない。本実施形態に係る言語処理システム3では、図19に示した分け方に限らず、クライアント端末7とサーバ装置4とが行う処理の分担は適宜変更可能である。
上記の各実施形態に係る言語処理装置1は、それ自体を、コンピュータと、当該コンピュータに実行させるプログラムプログラムとにより実現可能である。以下、図20を参照して、コンピュータとプログラムとにより実現される言語処理装置1について説明する。
図20は、コンピュータのハードウェア構成を示す図である。
図20に示すように、コンピュータ10は、プロセッサ1001と、主記憶装置1002と、補助記憶装置1003と、入力装置1004と、出力装置1005と、入出力インタフェース1006と、通信制御装置1007と、媒体駆動装置1008と、を備える。コンピュータ10におけるこれらの要素1001〜1008は、バス1010により相互に接続されており、要素間でのデータの受け渡しが可能になっている。
プロセッサ1001は、Central Processing Unit(CPU)やMicro Processing Unit(MPU)等である。プロセッサ1001は、オペレーティングシステムを含む各種のプログラムを実行することにより、コンピュータ10の全体の動作を制御する。また、プロセッサ1001は、例えば、図6〜図10に示した言語処理を含む言語処理プログラムを実行する。
主記憶装置1002は、図示しないRead Only Memory(ROM)及びRandom Access Memory(RAM)を含む。主記憶装置1002のROMには、例えば、コンピュータ10の起動時にプロセッサ1001が読み出す所定の基本制御プログラム等が予め記録されている。一方、主記憶装置1002のRAMは、プロセッサ1001が、各種のプログラムを実行する際に必要に応じて作業用記憶領域として使用する。主記憶装置1002のRAMは、例えば、略語テーブル191や言語間関係テーブル194等の記憶に利用可能である。
補助記憶装置1003は、主記憶装置1002のRAMと比べて容量の大きい記憶装置であり、例えば、Hard Disk Drive(HDD)や、フラッシュメモリのような不揮発性メモリ(Solid State Drive(SSD)を含む)等である。補助記憶装置1003は、プロセッサ1001によって実行される各種のプログラムや各種のデータ等の記憶に利用可能である。補助記憶装置1003は、例えば、図6〜図10に示した言語処理、或いは言語処理における文書抽出処理として図8の処理の代わりに図13の処理を行う言語処理プログラム等の記憶に利用可能である。また、補助記憶装置1003は、例えば、図1の言語処理装置1における記憶部190として利用可能である。すなわち、補助記憶装置1003は、略語テーブル191、要約文データベース192、本文データベース193、及び言語間関係テーブル194等の記憶に利用可能である。
入力装置1004は、例えば、キーボード装置やタッチパネル装置等である。コンピュータ10のオペレータ(利用者)が入力装置1004に対して所定の操作を行うと、入力装置1004は、その操作内容に対応付けられている入力情報をプロセッサ1001に送信する。入力装置1004は、例えば、言語処理を開始させる命令、コンピュータ10が実行可能な他の処理に関する命令等の入力や、テキストデータの入力、各種設定値の入力等に利用可能である。
出力装置1005は、例えば、液晶表示装置等の表示装置やレシーバ等の音声出力装置である。
入出力インタフェース1006は、コンピュータ10と、他の電子機器とを接続する。入出力インタフェース1006は、例えば、Universal Serial Bus(USB)規格のコネクタ等を備える。
通信制御装置1007は、コンピュータ10をインターネット等のネットワークに接続し、ネットワークを介したコンピュータ10と他の通信機器との各種通信を制御する装置である。
媒体駆動装置1008は、可搬型記憶媒体11に記録されているプログラムやデータの読み出し、補助記憶装置1003に記憶させたデータ等の可搬型記憶媒体11への書き込みを行う。媒体駆動装置1008には、例えば、1種類又は複数種類の規格に対応したメモリカード用リーダ/ライタが利用可能である。媒体駆動装置1008としてメモリカード用リーダ/ライタを用いる場合、可搬型記憶媒体11としては、メモリカード用リーダ/ライタが対応している規格、例えば、Secure Digital(SD)規格のメモリカード(フラッシュメモリ)等を利用可能である。また、可搬型記録媒体11としては、例えば、USB規格のコネクタを備えたフラッシュメモリが利用可能である。更に、コンピュータ10が媒体駆動装置1008として利用可能な光ディスクドライブを搭載している場合、当該光ディスクドライブで認識可能な各種の光ディスクを可搬型記録媒体11として利用可能である。可搬型記録媒体11として利用可能な光ディスクには、例えば、Compact Disc(CD)、Digital Versatile Disc(DVD)、Blu-ray Disc(Blu-rayは登録商標)等がある。可搬型記録媒体11は、例えば、図6〜図10に示した言語処理、或いは言語処理における文書抽出処理として図8の処理の代わりに図13の処理を行う言語処理プログラム等の記憶に利用可能である。また、可搬型記録媒体11は、例えば、図1の言語処理装置1における記憶部190として利用可能である。
オペレータが入力装置1004等を利用して言語処理を開始する命令をコンピュータ10に入力すると、プロセッサ1001が、補助記憶装置1003等の非一時的な記録媒体に記憶させた言語処理プログラムを読み出して実行する。この処理において、プロセッサ1001は、図1の言語処理装置1のキーワード抽出部120、文書抽出部130、原語候補抽出部140、原語特定部150、及び変換部160として機能する(動作する)。る。また、プロセッサ1001は、例えば、テキスト音声信号を入出力インタフェース1006、或いは通信制御装置1007を介して情報処理装置等の外部装置に出力してもよい。プロセッサ1001がこれらの処理を行っている間、主記憶装置1002のRAMや補助記憶装置1003等は、図1の言語処理装置1における記憶部190として機能する。
なお、言語処理装置1として動作させるコンピュータ10は、図20に示した全ての要素1001〜1008を含む必要はなく、用途や条件に応じて一部の要素を省略することも可能である。例えば、コンピュータ10は、通信制御装置1007や媒体駆動装置1008が省略されたものであってもよい。
また、コンピュータ10を言語処理装置1として動作させる場合、例えば、図6のステップS1〜S7の処理のうちのいくつかの処理を、サーバ装置4等の外部装置に実行させてもよい。すなわち、コンピュータ10は、第3の実施形態及び第4の実施形態で説明した言語処理システム3におけるクライアント端末7、或いはサーバ装置4として動作させることも可能である。
以上記載した各実施形態に関し、更に以下の付記を開示する。
(付記1)
テキストに含まれる略語と、前記略語と所定の関係にある特徴語とをキーワードとして、複数の本文のそれぞれの内容を要約した複数の要約文を検索し、前記略語と前記特徴語とを含む要約文がある場合に、当該要約文と対応付けられた本文を抽出する文書抽出部と、
抽出した前記本文から前記略語の原語の候補を抽出する原語候補抽出部と、
前記本文における前記原語の候補から前記特徴語又は前記特徴語の類義語までの語数に基づいて、前記原語の候補が前記略語の原語であるか否かを判定し前記略語の原語を特定する原語特定部と、
を備えることを特徴とする言語処理装置。
(付記2)
前記原語特定部は、前記特徴語又は前記特徴語の類義語までの語数が閾値以下である前記原語の候補を、前記略語の原語に特定する、
ことを特徴とする付記1に記載の言語処理装置。
(付記3)
前記要約文は、前記本文の内容を所定の文字数以下に要約した文である、
ことを特徴とする付記1に記載の言語処理装置。
(付記4)
前記文書抽出部は、複数の前記本文のうちの、前記略語と前記特徴語とを含む前記要約文についての前記本文との内容の類似度が高い関連本文を更に抽出し、
前記原語候補抽出部は、抽出した前記本文及び前記関連本文から前記原語の候補を抽出する、
ことを特徴とする付記1に記載の言語処理装置。
(付記5)
前記言語処理装置は、
前記テキストから前記略語と、前記特徴語とを含むキーワードを抽出するキーワード抽出部、を更に備え、
前記キーワード抽出部は、前記テキスト中の前記略語と係り受けの関係がある語、及び前記略語と複合語の関係がある語を前記特徴語として抽出する、
ことを特徴とする付記1に記載の言語処理装置。
(付記6)
前記言語処理装置は、
英語とは異なる言語における略語と原語との対応関係を示す略語テーブルを記憶する記憶部と、
前記テキストから前記略語と、前記特徴語とを含むキーワードを抽出するキーワード抽出部と、を更に備え、
前記キーワード抽出部は、前記テキストから、全てアルファベットの単語と、前記略語テーブルに登録された前記略語とを、前記テキスト中の略語として抽出する、
ことを特徴とする付記1に記載の言語処理装置。
(付記7)
前記言語処理装置は、
英単語のカタカナ表記と、前記英単語の略語との対応関係を示す言語間関係テーブルを記憶する記憶部と、
前記テキストから前記略語と、前記特徴語とを含むキーワードを抽出するキーワード抽出部と、を更に備え、
前記キーワード抽出部は、前記テキスト中の全てアルファベットの単語を前記略語として抽出し、
前記原語候補抽出部は、前記本文から抽出したカタカナ語と、前記言語間関係テーブルとに基づいて、前記カタカナ語についての略語候補を生成し、生成した前記略語候補が前記略語と一致する前記カタカナ語を前記原語の候補とする、
ことを特徴とする付記1に記載の言語処理装置。
(付記8)
前記言語処理装置は、
前記テキストの前記略語を特定した前記原語に変換する変換部と、
前記略語を前記原語に変換した前記テキストを音声に変換して出力する出力部と、を更に備える、
ことを特徴とする付記1に記載の言語処理装置。
(付記9)
テキストに含まれる略語と、前記略語と所定の関係にある特徴語とをキーワードとして、複数の本文のそれぞれの内容を要約した複数の要約文を検索し、前記略語と前記特徴語とを含む要約文がある場合に、当該要約文と対応付けられた本文を抽出する文書抽出部と、
抽出した前記本文から前記略語の原語の候補を抽出する原語候補抽出部と、
前記本文における前記原語の候補から前記特徴語又は前記特徴語の類義語までの語数に基づいて、前記原語の候補が前記略語の原語であるか否かを判定し前記略語の原語を特定する原語特定部と、
を備えることを特徴とする言語処理システム。
(付記10)
前記言語処理システムは、
前記文書抽出部と、通信部とを備えるサーバ装置と、
前記原語候補抽出部と、前記原語特定部と、通信部とを備える端末装置と、を含む、
ことを特徴とする付記9に記載の言語処理システム。
(付記11)
前記言語処理システムは、
前記文書抽出部と、前記原語候補抽出部と、前記原語特定部と、通信部とを備えるサーバ装置と、
前記テキストを入力する入力部と、前記テキストを出力する出力部と、通信部とを備える端末装置と、を含む、
ことを特徴とする付記9に記載の言語処理システム。
(付記12)
コンピュータが、
テキストに含まれる略語と、前記略語と所定の関係にある特徴語とをキーワードとして、複数の本文のそれぞれの内容を要約した複数の要約文を検索し、
前記略語と前記特徴語とを含む要約文がある場合に、当該要約文と対応付けられた本文を抽出し、
抽出した前記本文から前記略語の原語の候補を抽出し、
前記本文における前記原語の候補から前記特徴語又は前記特徴語の類義語までの語数に基づいて、前記原語の候補が前記略語の原語であるか否かを判定し前記略語の原語を特定する、
処理を実行することを特徴とする言語処理方法。
(付記13)
前記略語の原語を特定する処理において、前記コンピュータは、前記特徴語又は前記特徴語の類義語までの語数が閾値以下である前記原語の候補を、前記略語の原語に特定する、
ことを特徴とする付記12に記載の言語処理方法。
(付記14)
テキストに含まれる略語と、前記略語と所定の関係にある特徴語とをキーワードとして、複数の本文のそれぞれの内容を要約した複数の要約文を検索し、
前記略語と前記特徴語とを含む要約文がある場合に、当該要約文と対応付けられた本文を抽出し、
抽出した前記本文から前記略語の原語の候補を抽出し、
前記本文における前記原語の候補から前記特徴語又は前記特徴語の類義語までの語数に基づいて、前記原語の候補が前記略語の原語であるか否かを判定し前記略語の原語を特定する、
処理をコンピュータに実行させる言語処理プログラム。
(付記15)
前記略語の原語を特定する処理は、前記特徴語又は前記特徴語の類義語までの語数が閾値以下である前記原語の候補を、前記略語の原語に特定する、
ことを特徴とする付記14に記載の言語処理プログラム。