JP5853688B2 - 言語処理プログラム、言語処理装置および言語処理方法 - Google Patents
言語処理プログラム、言語処理装置および言語処理方法 Download PDFInfo
- Publication number
- JP5853688B2 JP5853688B2 JP2011288677A JP2011288677A JP5853688B2 JP 5853688 B2 JP5853688 B2 JP 5853688B2 JP 2011288677 A JP2011288677 A JP 2011288677A JP 2011288677 A JP2011288677 A JP 2011288677A JP 5853688 B2 JP5853688 B2 JP 5853688B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- data
- occurrence
- extracted
- reading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 170
- 238000003672 processing method Methods 0.000 title claims description 6
- 238000000605 extraction Methods 0.000 claims description 103
- 238000000034 method Methods 0.000 claims description 102
- 238000004364 calculation method Methods 0.000 claims description 46
- 239000000284 extract Substances 0.000 claims description 42
- 238000004458 analytical method Methods 0.000 description 61
- 238000012795 verification Methods 0.000 description 61
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 14
- 238000006243 chemical reaction Methods 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 230000007423 decrease Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 210000001015 abdomen Anatomy 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 235000016496 Panda oleosa Nutrition 0.000 description 3
- 240000000220 Panda oleosa Species 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
〔第1の実施の形態〕
図1は、第1の実施の形態に係る言語処理装置の構成例および処理例を示す図である。
図2は、第2の実施の形態に係る言語処理装置のハードウェア構成例を示す図である。
第2の実施の形態に係る言語処理装置100は、図2に示すようなコンピュータとして実現することができる。言語処理装置100は、CPU101によって装置全体が制御されている。CPU101には、バス108を介して、RAM(Random Access Memory)102と複数の周辺機器が接続されている。
図3は、第2の実施の形態に係る言語処理装置の処理機能の構成例を示すブロック図である。
第1の共起単語DB120は図1の第1のデータ群21に対応するものであり、第2の共起単語130は、図1の第2のデータ群22に対応するものである。図4に示すように、第1の共起単語DB120には、対象単語の表記および読みごとにレコードが登録され、各レコードには、対象単語と共起する共起単語が少なくとも1つ登録されている。すなわち、第1の共起単語DB120では、複数の読み方が存在する対象単語については、読みごとに個別のレコードが登録される。
第1の検索部111には、検証対象の単語と、この単語と共起する共起単語とを含む入力文字列INが入力される。第1の検索部111は、入力文字列INに含まれる検証対象単語と表記が一致する対象単語を含むレコードを、第1の共起単語DB120から抽出する。
判定部112から一致する共起単語があった旨の通知を受けた場合には、信頼度出力部115は、入力文字列INに含まれる共起単語と同一の共起単語を含む第1の共起単語DB120のレコードから、読みの情報を抽出する。信頼度出力部115は、抽出した読みについての信頼度として、所定の最大値(例えば100%)を出力する。
共起単語「演説を」を含むレコード131bとの重複率=0/71×100=0%
共起単語「道を」を含むレコード131cとの重複率=13/71×100=18%
信頼度出力部115は、算出された重複率のうち、レコード131cとレコード132との間における共起単語の重複率(18%)が最大であることを判定する。重複率が最大であるレコード131cに含まれる対象単語「道を」は、他の第1の抽出レコード(レコード131a,131b)に含まれる対象単語「実験を」、「演説を」と比較して、第2の抽出レコード(レコード132)に含まれる対象単語「間を」、すなわち入力文字列INに含まれる共起単語との類似性または関連性が、最も高いと推定できる。換言すると、「道を」は、「実験を」、「演説を」と比較して、入力文字列INにおける共起単語「間を」と置換できる可能性が高いと推定できる。また、「道を」を入力文字列INにおける共起単語「間を」と置換できる可能性は、重複率が高いほど高くなる。
共起単語「演説を」を含むレコード131bとの重複率=17/40×100=43%
共起単語「道を」を含むレコード131cとの重複率=0/40×100=0%
信頼度出力部115は、算出された重複率のうち、レコード131bとレコード133との間における共起単語の重複率(43%)が最大であることを判定する。信頼度出力部115は、レコード131b内の対象単語「演説を」を共起単語として含む第1の共起単語DB120のレコード121aから、読み「オオコナッタ」を抽出する。信頼度出力部115は、抽出した読み「オオコナッタ」の信頼性の値として、レコード131bに基づく重複率“43%”を出力する。
共起単語「部屋が」を含むレコード134bとの重複率=2/35×100=6%
共起単語「電車が」を含むレコード134cとの重複率=5/35×100=15%
共起単語「腹が」を含むレコード134dとの重複率=0/35×100=0%
信頼度出力部115は、算出された重複率のうち、レコード134cとレコード135との間における共起単語の重複率(15%)が最大であることを判定する。信頼度出力部115は、レコード134c内の対象単語「電車が」を共起単語として含む第1の共起単語DB120のレコード122bから、読み「ガスク」を抽出する。信頼度出力部115は、抽出した読み「ガスク」の信頼性の値として、レコード134cに基づく重複率“15%”を出力する。
信頼度出力部115は、算出された重複率に対して1より大きい所定の係数(例えば“2”)を乗算し、その乗算結果を信頼度として出力する。ただし、乗算結果が100%を超えた場合には、信頼度の出力値を100%とする。なお、例えば、このような重複率に係数を乗算する計算を、重複率が所定のしきい値(例えば10%)以上の場合のみ行うようにしてもよい。また、この場合、重複率がしきい値未満の場合には、出力する信頼度の値を0%としてもよい。
上記のように重複率が10%〜40%となっても読みが正しい場合が多いことに鑑み、信頼度出力部115は、重複率が10%〜40%であるとき、重複率を80%〜100%の値に変換して信頼度とし、重複率が40%を超えるとき、信頼度を一律に100%とする。また、重複率が0%以上10%未満であるとき、重複率を0%以上80%未満の値に変換して信頼度とする。このような場合の信頼度の計算手順の例を以下に示す。
重複率が10%以上40%未満:信頼度=80+(重複率−10)×2/3
重複率が40%以上:信頼度=100
また、信頼度出力部115は、次の「変換方法1」の例のように、信頼度を段階的な値として用意しておき、重複率を所定のしきい値と比較することで、重複率を信頼度の段階の値に変換してもよい。ここでは例として、信頼度を、高い順に「高」、「中」、「低」の3段階のいずれかとして出力する。
重複度が0%以上5%未満:信頼度「低」
重複度が5%以上10%未満:信頼度「中」
重複度が10%以上:信頼度「高」
次に、言語処理装置100の処理についてフローチャートを用いて説明する。図9は、言語処理装置の処理手順の例を示すフローチャートである。
[ステップS12]判定部112は、第1の検索部111によって第1の共起単語DB120から抽出されたレコードに含まれる共起単語の中に、入力文字列INに含まれる共起単語と一致するものがあるかを判定する。一致する共起単語があった場合、判定部112は、その旨を信頼度出力部115に通知する。この場合、ステップS13の処理が実行される。一方、一致する共起単語がなかった場合、判定部112は、その旨を第2の検索部113に通知する。この場合、ステップS14の処理が実行される。
[ステップS16]重複率計算部114は、ステップS14で抽出された第1の抽出レコードのそれぞれに含まれる共起単語と、ステップS15で抽出された第2の抽出レコードに含まれる共起単語との重複率を、第1の抽出レコードごとに計算する。
ここで、ステップS17での信頼度出力処理について、例として3つの処理例を示す。
[ステップS21]信頼度出力部115は、図9のステップS16の算出結果から、重複率が最大になった第1の抽出レコードを判別する。
[ステップS31]信頼度出力部115は、図9のステップS16で算出された重複率の最大値を、第1の抽出レコードに含まれる対象単語を共起単語として含む、第1の共起単語DB120のエントリごとに(すなわち、検証対象単語の読みごとに)判定する。ここで、検証対象単語の読みごとに判別された重複率の最大値を、「読み別最大重複率」と呼ぶ。
例えば、図8の例では、検証対象単語の読み「ガアク」に対応する読み別最大重複率が6%であるので、信頼度出力部115は、読み別最大重複率“6%”に基づいて、読み「ガアク」の信頼度を出力する。また、検証対象単語の読み「ガスク」に対応する読み別最大重複率が15%であるので、信頼度出力部115は、読み別最大重複率“15%”に基づいて、読み「ガスク」の信頼度を出力する。信頼度としては、例えば、重複率と同じ値が出力されてもよい。あるいは、前述の計算方法1、計算方法2、変換方法1のいずれかの手順で信頼度が出力されてもよい。
この第3の処理例は、図11の処理によって出力された信頼度を、読み別最大重複率同士の比較結果に基づいて補正するものである。なお、図12では、図11と同様の処理ステップには同じ符号を付して示す。また、図12では例として、検証対象単語について2種類の読み方が可能であるものとする。従って、ステップS32では、2つの読みとそれらに対応する信頼度とが出力される。
図13は、第3の実施の形態に係る言語処理装置の処理機能の構成例を示すブロック図である。なお、図13では、図3に対応する構成要素については同じ符号を付して示している。
図14の表示画面P1には、言語処理装置100aに入力されるかな漢字文章200が表示されている。信頼度表示処理部144は、表示させたかな漢字文章200のうち、複数読み単語が表示された表示部201〜206について、信頼度ごとに異なる表示状態で表示を行う。図14の例では、信頼度表示処理部144は、0%以上20%未満、20%以上40%未満、40%以上60%未満、60%以上80%未満、80%以上100%以下の5段階の信頼度について、それぞれ異なる背景で示している。この場合例えば、信頼度の各段階に対応するしきい値範囲および背景の表示状態を指示する情報(色など)が、表示DB144aに設定される。なお、信頼度ごとの表示状態の変え方としては、他に例えば、文字の色を変える、文字の太さやフォントを変えるなどの方法もある。
図15の表示画面P2は、構文解析部143が検証対象単語に対して読みを付与した場合の表示例である。この場合、信頼度表示処理部144は、複数読み単語の表示部201〜206について、付与された読みについての信頼度ごとに異なる表示状態で表示を行う。また、信頼度表示処理部144は、表示部201〜206に、元のかな漢字文章200の文字の代わりに、構文解析部143によって付与された読みを表示する。これにより、構文解析部143によって自動付与された読みの正しさを示す信頼性を、ユーザにわかりやすく提示することができる。
図16の表示画面P3は、複数読み単語の表示部201〜206について、その単語を読み誤る可能性の数値ごとに異なる表示状態で表示したものである。表示部201〜206には、元のかな漢字文章200中の文字がそのまま表示される。信頼度表示処理部144は、信頼度出力部115から出力される信頼度の最大値を100%から差し引いた値を、読み誤りの可能性として算出し、その算出値ごとに異なる表示状態で表示部201〜206の表示を行う。これにより、複数読み単語の位置と、その単語を読み誤る可能性とを、ユーザにわかりやすく提示することができる。
[ステップS51]形態素解析部141は、言語辞書145を参照しながら形態素解析を行うことにより、入力されたかな漢字文章を形態素列に分解する。
[ステップS57]信頼度表示処理部144は、複数読み単語抽出部142から供給されたかな漢字文章をディスプレイに表示するための表示情報を生成する。これとともに、信頼度表示処理部144は、表示DB144aを参照しながら、かな漢字文章内の複数読み単語の部分について、信頼度出力部115からの信頼度ごとに異なる表示状態で表示を行う。この表示処理については、図14〜図16において説明した通りである。
図18は、第4の実施の形態に係る言語処理装置の処理機能の構成例を示すブロック図である。なお、図18では、図3および図13に対応する構成要素については同じ符号を付して示している。
[ステップS71]形態素解析部141は、言語辞書145を参照しながら形態素解析を行うことにより、入力されたかな漢字文章を形態素列に分解する。
[ステップS77]読み決定部151は、複数読み単語抽出部142から通知された複数読み単語のそれぞれについて、信頼度出力部115からの読みおよび信頼度に基づいて、正しいと推定される読みを決定し、韻律情報付与部152に出力する。具体的には、読み決定部151は、信頼度出力部115から出力された読みごとの信頼度のうち最大のものを判別し、最大の信頼度に対応する読みを正しい読みとして決定する。
図20は、第5の実施の形態に係る言語処理装置の処理機能の構成例を示すブロック図である。なお、図20では、図3および図13に対応する構成要素については同じ符号を付して示している。
[ステップS91]文章抽出部161により、第1の共起単語DB120から対象単語が1つ選択されるごとに、ステップS92以下の処理が実行される。そして、ループ端であるステップS106までの処理が、第1の共起単語DB120に含まれるすべての対象単語について繰り返し実行される。ただし、文章抽出部161は、第1の共起単語DB120において同一表記で複数の読み方が可能な対象単語については、処理対象として1つだけ選択すればよい。
[ステップS93]形態素解析部141は、言語辞書145を参照しながら形態素解析を行うことにより、ステップS92で抽出された文章を形態素列に分解する。
[ステップS96]ループ端であるステップS105までの処理が、構文解析部143から入力される入力文字列INの数だけ繰り返し実行される。
[ステップS98]判定部112は、第1の検索部111によって第1の共起単語DB120から抽出されたレコードに含まれる共起単語の中に、入力文字列INに含まれる共起単語と一致するものがあるかを判定する。一致する共起単語がなかった場合、判定部112は、その旨を第2の検索部113に通知する。この場合、ステップS99の処理が実行される。
[ステップS101]重複率計算部114は、ステップS99で抽出された第1の抽出レコードのそれぞれに含まれる共起単語と、ステップS100で抽出された第2の抽出レコードに含まれる共起単語との重複率を、第1の抽出レコードごとに計算する。
[ステップS106]文章抽出部161によって選択された第1の共起単語DB120内のすべての対象単語について、ループ内の処理が終了した場合、処理全体が終了する。
(付記1) コンピュータに、
第1の単語およびこれと共起する第2の単語の入力を受け付け、読みの情報が付与された対象単語に対して当該対象単語と共起する共起単語が少なくとも1つ対応付けられた第1のデータを複数含む第1のデータ群から、前記第1の単語と表記が一致する対象単語を含む前記第1のデータを少なくとも1つ抽出し、
対象単語に対して当該対象単語と共起する共起単語が少なくとも1つ対応付けられた第2のデータを複数含む第2のデータ群から、前記第1のデータ群から抽出された前記第1のデータに含まれる共起単語のそれぞれと同一の対象単語を含む前記第2のデータを、それぞれ第1の抽出データとして抽出するとともに、前記第2の単語と同一の対象単語を含む前記第2のデータを、第2の抽出データとして抽出し、
前記第1の抽出データに含まれる共起単語と前記第2の抽出データに含まれる共起単語との重複数を判定する、
処理を実行させることを特徴とする言語処理プログラム。
処理をさらに含むことを特徴とする付記1記載の言語処理プログラム。
(付記5) 前記第2のデータ群から前記第1の抽出データが複数抽出された場合、前記第1の抽出データに含まれる共起単語と前記第2の抽出データに含まれる共起単語との重複数は、前記第1の抽出データごとに算出され、
前記信頼度は、算出された複数の重複数のうちの最大値に基づいて算出される、
ことを特徴とする付記2〜4のいずれか1つに記載の言語処理プログラム。
前記入力文章を表示装置に表示させるとともに、表示された前記入力文章中の前記第1の単語の位置に、前記判別した読みを表示させ、さらに、当該第1の単語の表示状態を前記信頼度に応じて変化させる処理と、
をさらに含むことを特徴とする付記6記載の言語処理プログラム。
変換された前記読みの情報における前記第1の単語の読みを、前記第2の抽出データとの間で共起単語の重複数が最大となった前記第1の抽出データに含まれる対象単語を共起単語として含むとともに前記第1の単語を対象単語として含む前記第1のデータに付与された読みに決定する処理と、
をさらに含むことを特徴とする付記5記載の言語処理プログラム。
前記第1のデータ群からの抽出処理では、少なくとも、前記第1の単語と表記が一致する対象単語と前記第1の単語に付与された読みとを含む前記第1のデータを抽出し、
さらに、
前記第1の単語に付与された読みを、前記信頼度に応じた表示状態で表示装置に表示させる、
処理をさらに含むことを特徴とする付記5記載の言語処理プログラム。
前記第1のデータ群からの前記第1のデータの抽出処理を開始させた結果、算出された前記信頼度が所定値以上であるとき、前記第2の抽出データとの間で共起単語の重複数が最大となった前記第1の抽出データに含まれる対象単語を共起単語として含むとともに前記第1の単語を対象単語として含む前記第1のデータに付与された読みを判別し、対象単語として前記第1の単語を含むとともに判別した読みを含む前記第1のデータ群の第1のデータに、前記第2の単語を共起単語として登録する処理と、
をさらに含むことを特徴とする付記5記載の言語処理プログラム。
前記重複度を判定する処理では、複数抽出された前記第1のデータのうち一の前記第1のデータを基に抽出された前記第1の抽出データと前記第2の抽出データとの間の共起単語の重複数を、第1の重複数として出力するとともに、他の前記第1のデータを基に抽出された前記第1の抽出データと前記第2の抽出データとの間の共起単語の重複数を、第2の重複数として出力し、
前記信頼度を算出する処理では、前記第1の重複数と前記第2の重複数のそれぞれに基づいて前記信頼度を算出し、前記第1の重複数と前記第2の重複数との差分または比に応じて、算出した前記信頼度を補正する、
ことを特徴とする付記2記載の言語処理プログラム。
前記第2のデータ群から前記第1の抽出データおよび前記第2の抽出データを抽出する処理は、前記第1のデータ群から抽出された前記第1のデータに含まれる共起単語と、前記第2の単語とが一致しない場合に実行され、
前記重複度に基づく前記信頼度は、前記上限値以下の値として出力される、
ことを特徴とする付記2記載の言語処理プログラム。
対象単語に対して当該対象単語と共起する共起単語が少なくとも1つ対応付けられた第2のデータを複数含む第2のデータ群から、前記第1のデータ群から抽出された前記第1のデータに含まれる共起単語のそれぞれと同一の対象単語を含む前記第2のデータを、それぞれ第1の抽出データとして抽出するとともに、前記第2の単語と同一の対象単語を含む前記第2のデータを、第2の抽出データとして抽出する第2の検索部と、
前記第1の抽出データに含まれる共起単語と前記第2の抽出データに含まれる共起単語との重複数を判定する重複判定部と、
を有することを特徴とする言語処理装置。
前記信頼度算出部は、前記信頼度を、算出された複数の重複数のうちの最大値に基づいて算出する、
ことを特徴とする付記14または15記載の言語処理装置。
ことを特徴とする付記16記載の言語処理装置。
前記入力文章を表示装置に表示させるとともに、表示された前記入力文章中の前記第1の単語の位置に、前記判別した読みを表示させ、さらに、当該第1の単語の表示状態を前記信頼度に応じて変化させる表示制御部と、
をさらに有することを特徴とする付記17記載の言語処理装置。
変換された前記読みの情報における前記第1の単語の読みを、前記第2の抽出データとの間で共起単語の重複数が最大となった前記第1の抽出データに含まれる対象単語を共起単語として含むとともに前記第1の単語を対象単語として含む前記第1のデータに付与された読みに決定する読み決定処理部と、
をさらに有することを特徴とする付記16記載の言語処理装置。
第1の単語およびこれと共起する第2の単語の入力を受け付け、読みの情報が付与された対象単語に対して当該対象単語と共起する共起単語が少なくとも1つ対応付けられた第1のデータを複数含む第1のデータ群から、前記第1の単語と表記が一致する対象単語を含む前記第1のデータを少なくとも1つ抽出し、
対象単語に対して当該対象単語と共起する共起単語が少なくとも1つ対応付けられた第2のデータを複数含む第2のデータ群から、前記第1のデータ群から抽出された前記第1のデータに含まれる共起単語のそれぞれと同一の対象単語を含む前記第2のデータを、それぞれ第1の抽出データとして抽出するとともに、前記第2の単語と同一の対象単語を含む前記第2のデータを、第2の抽出データとして抽出し、
前記第1の抽出データに含まれる共起単語と前記第2の抽出データに含まれる共起単語との重複数を判定する、
ことを特徴とする言語処理方法。
11 第1の検索部
12 第2の検索部
13 重複判定部
21 第1のデータ群
22 第2のデータ群
21a,21b,22a,22b レコード
Claims (11)
- コンピュータに、
第1の単語およびこれと共起する第2の単語の入力を受け付け、読みの情報が付与された対象単語に対して当該対象単語と共起する共起単語が少なくとも1つ対応付けられた第1のデータを複数含む第1のデータ群から、前記第1の単語と表記が一致する対象単語を含む前記第1のデータを少なくとも1つ抽出し、
対象単語に対して当該対象単語と共起する共起単語が少なくとも1つ対応付けられた第2のデータを複数含む第2のデータ群から、前記第1のデータ群から抽出された前記第1のデータに含まれる共起単語のそれぞれと同一の対象単語を含む前記第2のデータを、それぞれ第1の抽出データとして抽出するとともに、前記第2の単語と同一の対象単語を含む前記第2のデータを、第2の抽出データとして抽出し、
前記第1の抽出データに含まれる共起単語と前記第2の抽出データに含まれる共起単語との重複数を判定し、
前記重複数に基づいて、前記第1の抽出データに含まれる対象単語を共起単語として含むとともに前記第1の単語を対象単語として含む前記第1のデータに付与された読みが、前記第1の単語の読みとして正しいかの度合いを示す信頼度を算出する、
処理を実行させることを特徴とする言語処理プログラム。 - 前記信頼度を算出する処理では、前記第1の抽出データに含まれる共起単語と前記第2の抽出データに含まれる共起単語との重複率に基づいて、前記信頼度を算出することを特徴とする請求項1記載の言語処理プログラム。
- 前記第2のデータ群から前記第1の抽出データが複数抽出された場合、前記第1の抽出データに含まれる共起単語と前記第2の抽出データに含まれる共起単語との前記重複数は、前記第1の抽出データごとに算出され、
前記信頼度は、算出された複数の前記重複数のうちの最大値に基づいて算出される、
ことを特徴とする請求項1または2記載の言語処理プログラム。 - 前記第2の抽出データとの間で共起単語の前記重複数が最大となった前記第1の抽出データに含まれる対象単語を共起単語として含むとともに前記第1の単語を対象単語として含む前記第1のデータに付与された読みを判別し、判別した読みとともに、前記信頼度を当該判別した読みの正しさの度合いを示す情報として出力する処理をさらに含むことを特徴とする請求項3記載の言語処理プログラム。
- 入力文章から前記第1の単語と前記第2の単語の組み合わせを抽出する処理と、
前記入力文章を表示装置に表示させるとともに、表示された前記入力文章中の前記第1の単語の位置に、前記判別した読みを表示させ、さらに、当該第1の単語の表示状態を前記信頼度に応じて変化させる処理と、
をさらに含むことを特徴とする請求項4記載の言語処理プログラム。 - 入力文章から前記第1の単語と前記第2の単語の組み合わせを抽出するとともに、前記入力文章を読みの情報に変換する処理と、
変換された前記読みの情報における前記第1の単語の読みを、前記第2の抽出データとの間で共起単語の前記重複数が最大となった前記第1の抽出データに含まれる対象単語を共起単語として含むとともに前記第1の単語を対象単語として含む前記第1のデータに付与された読みに決定する処理と、
をさらに含むことを特徴とする請求項3記載の言語処理プログラム。 - 前記第1の単語に読みがあらかじめ付与され、
前記第1のデータ群からの抽出処理では、少なくとも、前記第1の単語と表記が一致する対象単語と前記第1の単語に付与された読みとを含む前記第1のデータを抽出し、
さらに、
前記第1の単語に付与された読みを、前記信頼度に応じた表示状態で表示装置に表示させる、
処理をさらに含むことを特徴とする請求項3記載の言語処理プログラム。 - 前記第1のデータ群から選択した対象単語を含む文章を所定の文章群から抽出し、抽出した文章から前記選択した対象単語と共起する共起単語を抽出し、前記選択した対象単語を前記第1の単語とするとともに、前記抽出した文章から抽出した共起単語を前記第2の単語として、前記第1のデータ群からの前記第1のデータの抽出処理を開始させる処理と、
前記第1のデータ群からの前記第1のデータの抽出処理を開始させた結果、算出された前記信頼度が所定値以上であるとき、前記第2の抽出データとの間で共起単語の前記重複数が最大となった前記第1の抽出データに含まれる対象単語を共起単語として含むとともに前記第1の単語を対象単語として含む前記第1のデータに付与された読みを判別し、対象単語として前記第1の単語を含むとともに判別した読みを含む前記第1のデータ群の前記第1のデータに、前記第2の単語を共起単語として登録する処理と、
をさらに含むことを特徴とする請求項3記載の言語処理プログラム。 - 前記第1の単語と表記が一致する対象単語を含む前記第1のデータは、前記第1のデータ群から複数抽出され、
前記重複数を判定する処理では、複数抽出された前記第1のデータのうち一の前記第1のデータを基に抽出された前記第1の抽出データと前記第2の抽出データとの間の共起単語の前記重複数を、第1の重複数として出力するとともに、他の前記第1のデータを基に抽出された前記第1の抽出データと前記第2の抽出データとの間の共起単語の前記重複数を、第2の重複数として出力し、
前記信頼度を算出する処理では、前記第1の重複数と前記第2の重複数のそれぞれに基づいて前記信頼度を算出し、前記第1の重複数と前記第2の重複数との差分または比に応じて、前記信頼度を補正する、
ことを特徴とする請求項1記載の言語処理プログラム。 - 第1の単語およびこれと共起する第2の単語の入力を受け付け、読みの情報が付与された対象単語に対して当該対象単語と共起する共起単語が少なくとも1つ対応付けられた第1のデータを複数含む第1のデータ群から、前記第1の単語と表記が一致する対象単語を含む前記第1のデータを少なくとも1つ抽出する第1の検索部と、
対象単語に対して当該対象単語と共起する共起単語が少なくとも1つ対応付けられた第2のデータを複数含む第2のデータ群から、前記第1のデータ群から抽出された前記第1のデータに含まれる共起単語のそれぞれと同一の対象単語を含む前記第2のデータを、それぞれ第1の抽出データとして抽出するとともに、前記第2の単語と同一の対象単語を含む前記第2のデータを、第2の抽出データとして抽出する第2の検索部と、
前記第1の抽出データに含まれる共起単語と前記第2の抽出データに含まれる共起単語との重複数を判定する重複判定部と、
前記重複数に基づいて、前記第1の抽出データに含まれる対象単語を共起単語として含むとともに前記第1の単語を対象単語として含む前記第1のデータに付与された読みが、前記第1の単語の読みとして正しいかの度合いを示す信頼度を算出する信頼度算出部と、
を有することを特徴とする言語処理装置。 - コンピュータが、
第1の単語およびこれと共起する第2の単語の入力を受け付け、読みの情報が付与された対象単語に対して当該対象単語と共起する共起単語が少なくとも1つ対応付けられた第1のデータを複数含む第1のデータ群から、前記第1の単語と表記が一致する対象単語を含む前記第1のデータを少なくとも1つ抽出し、
対象単語に対して当該対象単語と共起する共起単語が少なくとも1つ対応付けられた第2のデータを複数含む第2のデータ群から、前記第1のデータ群から抽出された前記第1のデータに含まれる共起単語のそれぞれと同一の対象単語を含む前記第2のデータを、それぞれ第1の抽出データとして抽出するとともに、前記第2の単語と同一の対象単語を含む前記第2のデータを、第2の抽出データとして抽出し、
前記第1の抽出データに含まれる共起単語と前記第2の抽出データに含まれる共起単語との重複数を判定し、
前記重複数に基づいて、前記第1の抽出データに含まれる対象単語を共起単語として含むとともに前記第1の単語を対象単語として含む前記第1のデータに付与された読みが、前記第1の単語の読みとして正しいかの度合いを示す信頼度を算出する、
ことを特徴とする言語処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011288677A JP5853688B2 (ja) | 2011-12-28 | 2011-12-28 | 言語処理プログラム、言語処理装置および言語処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011288677A JP5853688B2 (ja) | 2011-12-28 | 2011-12-28 | 言語処理プログラム、言語処理装置および言語処理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013137672A JP2013137672A (ja) | 2013-07-11 |
JP5853688B2 true JP5853688B2 (ja) | 2016-02-09 |
Family
ID=48913339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011288677A Expired - Fee Related JP5853688B2 (ja) | 2011-12-28 | 2011-12-28 | 言語処理プログラム、言語処理装置および言語処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5853688B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105697365B (zh) * | 2016-03-21 | 2018-06-08 | 常州大学 | 一种弦线轮加工方法及非接触式弦线轮转子泵 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0363767A (ja) * | 1989-08-01 | 1991-03-19 | Ricoh Co Ltd | テキスト音声合成装置 |
JPH03116373A (ja) * | 1989-09-29 | 1991-05-17 | Ricoh Co Ltd | 多義性解消方法 |
JP2000137718A (ja) * | 1998-11-04 | 2000-05-16 | Nippon Telegr & Teleph Corp <Ntt> | 単語の類似性判別方法および単語の類似性判別プログラムを記録した記録媒体 |
-
2011
- 2011-12-28 JP JP2011288677A patent/JP5853688B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105697365B (zh) * | 2016-03-21 | 2018-06-08 | 常州大学 | 一种弦线轮加工方法及非接触式弦线轮转子泵 |
Also Published As
Publication number | Publication date |
---|---|
JP2013137672A (ja) | 2013-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Habash et al. | MADA+ TOKAN: A toolkit for Arabic tokenization, diacritization, morphological disambiguation, POS tagging, stemming and lemmatization | |
US7640158B2 (en) | Automatic detection and application of editing patterns in draft documents | |
US8719006B2 (en) | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis | |
Neme et al. | Pattern-and-root inflectional morphology: the Arabic broken plural | |
Ofazer et al. | Bootstrapping morphological analyzers by combining human elicitation and machine learning | |
US20070011160A1 (en) | Literacy automation software | |
Sawalha | Open-source resources and standards for Arabic word structure analysis: Fine grained morphological analysis of Arabic text corpora | |
Mosavi Miangah | FarsiSpell: A spell-checking system for Persian using a large monolingual corpus | |
JP2014240884A (ja) | コンテンツ作成支援装置、方法およびプログラム | |
KR101023209B1 (ko) | 문서 번역 장치 및 그 방법 | |
De Kuthy et al. | Towards automatically generating questions under discussion to link information and discourse structure | |
Koleva et al. | An automatic part-of-speech tagger for Middle Low German | |
JP2010244385A (ja) | 機械翻訳装置、機械翻訳方法、およびプログラム | |
JP5853688B2 (ja) | 言語処理プログラム、言語処理装置および言語処理方法 | |
Rytting et al. | Spelling correction for dialectal Arabic dictionary lookup | |
de Mendonça Almeida et al. | Evaluating phonetic spellers for user-generated content in Brazilian Portuguese | |
Núñez et al. | Phonetic normalization for machine translation of user generated content | |
Dashti et al. | PERCORE: A Deep Learning-Based Framework for Persian Spelling Correction with Phonetic Analysis | |
Alosaimy | Ensemble Morphosyntactic Analyser for Classical Arabic | |
Neme | A fully inflected Arabic verb resource constructed from a lexicon of lemmas by using finite-state transducers | |
Neme | An arabic language resource for computational morphology based on the semitic model | |
Dave et al. | A Systematic Review of Stemmers of Indian and Non-Indian Vernacular Languages | |
Sankaravelayuthan et al. | A Comprehensive Study of Shallow Parsing and Machine Translation in Malaylam | |
JP6451151B2 (ja) | 質問応答装置、質問応答方法、プログラム | |
Peng et al. | Automated essay scoring based on finite state transducer: towards ASR transcription of oral English speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140904 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150529 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150602 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150803 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151123 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5853688 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |