JP5228325B2 - 日本語処理装置、日本語処理方法、および日本語処理用プログラム - Google Patents

日本語処理装置、日本語処理方法、および日本語処理用プログラム Download PDF

Info

Publication number
JP5228325B2
JP5228325B2 JP2007014539A JP2007014539A JP5228325B2 JP 5228325 B2 JP5228325 B2 JP 5228325B2 JP 2007014539 A JP2007014539 A JP 2007014539A JP 2007014539 A JP2007014539 A JP 2007014539A JP 5228325 B2 JP5228325 B2 JP 5228325B2
Authority
JP
Japan
Prior art keywords
conversion
character string
logic
target character
priority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007014539A
Other languages
English (en)
Other versions
JP2008181357A (ja
Inventor
宏顕 木曽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007014539A priority Critical patent/JP5228325B2/ja
Publication of JP2008181357A publication Critical patent/JP2008181357A/ja
Application granted granted Critical
Publication of JP5228325B2 publication Critical patent/JP5228325B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、入力文字列に対し日本語変換処理を行う日本語処理装置、日本語処理方法、および日本語処理用プログラムに関する。
仮名漢字変換や予測変換等、平仮名やローマ字で入力した読み等の入力文字列に対し変換処理を行う日本語処理方法において、変換候補の提示をいかにそのユーザにとって適切なものとするかといった課題に対し、従来より様々な取り組みがなされている。
例えば、特許文献1には、入力された文字列が意味する内容を分類するための文字列属性情報(場所を意味する単語かどうか、時間を意味する単語かどうか等)に基づいて変換候補を絞り込む方法が記載されている。
また、特許文献2には、変換対象である入力文字列の読み、変換結果の表現、品詞などに応じて、複数の学習方式のうち一つを選択して学習を行い、変換候補の順序を変化させる方法が記載されている。
特開2005−107751号公報(段落0033−0035,0045) 特開平9−062668号公報(段落0049−0052)
従来の日本語処理方法におけるユーザ適応は、ユーザが過去に入力した単語レベルのユーザ適応であって、過去に入力していない単語に適応されないという問題があった。ここで、日本語処理方法におけるユーザ適用とは、ユーザの入力履歴(変換結果を含む)に応じて変換候補の提示内容を変化させることをいう。例えば、候補順のユーザ適応方法として、ユーザが入力した単語の読みに対し確定した表記を学習してその表記の候補順を上げる方法が一般に知られているが、学習結果の反映はその単語に対してのみ行われ、過去に入力されていない単語について候補順が変化するわけではない。
特許文献1に記載されている方法は、利用者の置かれている状況を考慮して入力支援をしようというものであって、過去に入力されていない単語に対するユーザ適応性を向上させようというものではない。例えば、特許文献1に記載されている方法を適用すれば、過去に入力していない単語であっても文字列属性情報を入力することにより、変換結果をその属性に属する単語に絞り込むことはできる。しかしながら、特許文献1に記載されている方法は、その時入力される文字列属性情報に基づいて変換候補を変更しているのであって、ユーザの入力履歴によりユーザ適応性を向上させているわけではない。
なお、特許文献1では、入力済文字列情報に基づいて自動的に文字列属性情報を取得する方法についても言及しているが、”「行く」の次に場所に関する単語が入力されると予測する”という例を示しているだけで、その予測をどう実現するかについて何ら開示されていない。
また、特許文献2に記載されている方法は、利用者の利用状況に応じた特定のケースに対応する学習方式を記憶しておき、特定のケース毎に学習方式を切り替えようというものであって、切り替えた学習方式による学習結果の反映が単語レベルであることは従来の方法と変わりがない。
そこで、本発明は、過去に入力されていない単語に対してもユーザ適応可能な日本語処理装置、日本語処理方法、および日本語処理用プログラムを提供することを目的とする。具体的には、過去に入力されていない単語に対しても、変換候補の提示順をそのユーザに適した順序に変化させることが可能な日本語処理装置、日本語処理方法、および日本語処理用プログラムを提供することを目的とする。
本発明による日本語処理装置は、入力された変換対象文字列に対し、日本語変換を行う日本語変換手段(例えば、仮名漢字変換−予測装置4)を備え、日本語変換手段は、変換対象文字列がとりうる構文およびその構文において各単語がもちうる品詞を判別して、該変換対象文字列に対し適用可能な変換ロジックであって変換対象文字列をどのような品詞を持つ単語またはその組み合わせとして変換するかを定めた変換ロジックを特定する変換ロジック特定手段(例えば、仮名漢字変換−予測エンジン(コア部)42が備える構文解析機能や辞書照合機能)と、入力された変換対象文字列に対しユーザの操作に応じて変換結果が確定すると、変換対象文字列がとりうる単語の品詞および該変換対象文字列に対し確定した変換結果に基づいて、次回以降に入力される変換対象文字列に対し適用させる変換ロジックの優先順位をユーザの入力履歴に基づいて変化させるために付される優先度であって、該変換対象文字列がとりうる単語の品詞の組み合わせにおける変換ロジックの優先度を学習する変換ロジック学習手段(例えば、仮名漢字変換−予測エンジン(ユーザ依存部)43)と、新たに変換対象文字列が入力されると、該変換対象文字列がとりうる品詞の組み合わせまたはそれに最も近い品詞の組み合わせにおいて学習された変換ロジックの優先度に従って、該変換対象文字列に対する変換候補リストを生成する変換処理手段(仮名漢字変換−予測エンジン(コア部)42)とを含み、変換ロジック学習手段は、入力された変換対象文字列に対し変換結果が確定すると、該変換対象文字列に対し適用可能な変換ロジックの組み合わせに対して、変換結果となった表記を抽出するために用いた変換ロジックの優先度を上げる制御を行うことを特徴とする。
また、変換ロジック学習手段は、変換対象文字列に対し変換結果が確定すると、該変換対象文字列に対し適用可能な変換ロジックの組み合わせと、変換対象文字列を一部に含む文字列に対し適用可能な変換ロジックの組み合わせとを区別して、該変換対象文字列に対し適用可能な変換ロジックの組み合わせに対して、変換結果となった表記を抽出するために用いた変換ロジックの優先度を上げる制御を行うとともに、該変換対象文字列を一部に含む文字列に対し適用可能な変換ロジックの組み合わせにおける、変換結果となった表記を抽出するために用いた変換ロジックについて区切って入力しないことを学習してもよい。
また、変換ロジック学習手段は、同じ文字列に対し適用されうる2以上の変換ロジックの組み合わせについて、その組み合わせにおける各変換ロジックの優先度を記述するためのロジック優先度テーブル(例えば、仮名漢字変換−予測エンジン(ユーザ依存部)43によって定められる優先度テーブル)を定め、変換ロジック学習手段は、変換対象文字列に対し変換結果が確定すると、その変換対象文字列に適用可能な変換ロジックの組み合わせについて定めたロジック優先度テーブルで、変換結果となった表記を抽出するために用いた変換ロジックの優先度を上げるよう更新し、変換処理手段は、新たに変換対象文字列が入力されると、ロジック優先度テーブルで示される該変換対象文字列に対し適用可能な変換ロジックの組み合わせと同じ組み合わせまたは最も合致する組み合わせにおける各変換ロジックの優先度に従って、該変換対象文字列に対する変換候補リストを生成してもよい。
また、日本語変換手段は、仮名漢字変換用辞書として、読みと、その読みをもつ単語の各表記と、その表記が示す単語の品詞とを対応づけて記憶する仮名漢字変換用辞書記憶手段(仮名漢字変換−予測辞書44)を含み、変換処理手段は、変換ロジックの優先度が高い順に変換ロジックを変換対象文字列に適用し、仮名漢字変換用辞書から、適用した変換ロジックによって特定される単語の読みおよび品詞が一致する表記を変換候補として抽出して、変換候補リストを生成してもよい。
また、変換ロジック学習手段は、同じ文字列に対し適用されうる2以上の変換ロジックの組み合わせについて、該組み合わせにおける各変換ロジックの優先度を記述するためのロジック優先度テーブルを定めるとともに、仮名漢字変換用辞書に登録されている読みについて、その読みをもつ表記が示す各単語の優先度を記述するための単語優先度テーブル(例えば、仮名漢字変換−予測辞書(ユーザ依存部)45に記憶する情報)を定め、変換ロジック学習手段は、変換対象文字列に対し変換結果が確定すると、該変換対象文字列に適用可能な変換ロジックの組み合わせについて定めたロジック優先度テーブルで、変換結果となった表記を抽出するために用いた変換ロジックの優先度を上げるよう更新するとともに、変換結果の単語の読みについて定めた単語優先度テーブルで、変換結果となった表記が示す単語の優先度を上げるよう更新し、変換処理手段は、新たに変換対象文字列が入力されると、ロジック優先度テーブルで示される該変換対象文字列に対し適用可能な変換ロジックの組み合わせと同じ組み合わせまたは最も合致する組み合わせにおける各変換ロジックの優先度と、単語優先度テーブルで示される各単語の優先度とに基づいて、該変換対象文字列に対する変換候補リストを生成してもよい。
また、本発明による日本語処理用プログラムは、入力された変換対象文字列に対し、日本語変換を行うための日本語処理用プログラムであって、コンピュータに、変換対象文字列がとりうる構文およびその構文において各単語がもちうる品詞を判別して、該変換対象文字列に対し適用可能な変換ロジックであって該変換対象文字列をどのような品詞をもつ単語またはその組み合わせとして変換するかを定めた変換ロジックを特定する変換ロジック特定処理、入力された変換対象文字列に対しユーザの操作に応じて変換結果が確定すると、変換対象文字列がとりうる単語の品詞および該変換対象文字列に対し確定した変換結果に基づいて、次回以降に入力される変換対象文字列に対し適用させる変換ロジックの優先順位をユーザの入力履歴に基づいて変化させるために付される優先度であって、該変換対象文字列がとりうる単語の品詞の組み合わせにおける変換ロジックの優先度を学習する変換ロジック学習処理、および新たに変換対象文字列が入力されると、該変換対象文字列がとりうる品詞の組み合わせまたは最も近い品詞の組み合わせにおいて学習された変換ロジックの優先度に従って、該変換対象文字列に対する変換候補リストを生成する変換処理を実行させ、変換ロジック学習処理で、入力された変換対象文字列に対し変換結果が確定すると、該変換対象文字列に対し適用可能な変換ロジックの組み合わせに対して、変換結果となった表記を抽出するために用いた変換ロジックの優先度を上げる制御を行わせることを特徴とする。
本発明によれば、日本語変換手段が、ユーザが過去に入力した変換対象文字列がとりえた単語の属性およびその変換対象文字列に対し確定した変換結果に基づいて、変換ロジックの優先順位を変化させるので、過去に入力されていない単語に対しても、変換候補の提示順をそのユーザに適した順序に変化させることが可能である。
以下、本発明の実施の形態を図面を参照して説明する。
実施の形態1.
図1は、本発明の第1の実施の形態による日本語処理装置の構成例を示すブロック図である。図1に示す日本語処理装置は、キーボード等の入力装置1と、ディスプレイ装置等の出力装置2と、入出力情報を制御する制御部3と、入力される文字列に対し仮名漢字変換および予測変換を行う仮名漢字変換−予測装置4とを備える。
入力装置1は、ユーザ操作の内容を示す情報(具体的には、変換対象とする文字列や変換候補に対する確定指示を示す情報)を入力情報として制御部3に入力する。出力装置2は、制御部3からの出力情報(具体的には、入力文字列や変換候補の一覧や変換結果を示す情報)をユーザに対し表示可能に出力する。
制御部3は、仮名漢字変換−予測装置4とのインタフェースを担うコントローラであって、入力装置1から入力される入力情報が変換対象文字列(例えば、平仮名やローマ字で入力された未確定の読みを示す文字列)であった場合に、その変換対象文字列に対し、仮名漢字変換−予測装置4に仮名漢字変換および予測変換を行わせるための各種処理を実行する。ここで、仮名漢字変換とは、変換対象文字列をその変換対象文字列を読みとする仮名漢字交じりの表記に変換することをいう。また、予測変換とは、変換対象文字列をその変換対象文字列を読みの前半一部とする仮名漢字交じりの表記に変換することをいう。
制御部3は、具体的には、仮名漢字変換−予測装置4の上位アプリケーションが読み込まれた、CPU等のプログラムに従って動作する情報処理装置によって実現される。制御部3は、例えば、仮名漢字変換−予測装置4に対し、変換対象文字列を設定したり、変換候補に関する情報(変換候補リスト)を取得したり、変換候補に対する確定指示に基づく変換結果に関する情報を通知したりする。また、変換候補に関する情報や確定指示を示す情報に基づいて出力情報を生成し、出力装置2にその情報を表示させる。なお、変換対象文字列を設定した後は、制御部3を介さず、仮名漢字変換−予測装置4が直接に、入力装置1から確定指示を示す情報を入力したり、変換候補や変換結果に基づいて出力情報を生成して出力装置2に表示させてもよい。
仮名漢字変換−予測装置4は、変換対象文字列に対して、仮名漢字変換および予測変換を実施する。具体的には、制御部3からの指示に従い、設定された変換対象文字列に対する変換候補リストを生成する。また、ユーザの選択操作に応じて入力される変換候補に対する確定指示を示す情報に基づいて変換結果を確定することにより、変換対象文字列をユーザの望む仮名漢字交じり表記に変換する。本発明においては、仮名漢字変換−予測装置4は、変換対象文字列がもつ単語の属性を利用して、変換対象文字列に適用する変換ロジックを変化させる。ここで、単語の属性とは、単語群をある観点で分類したときのその分類の体系を識別するための識別情報であり、例えば、品詞の他に、人名/地名/食べ物であるか、同義語・反対語のセットや、シソーラスで表現されるような意味概念関係等を含めてもよい。なお、変換ロジックとは、変換対象文字列をどのような属性を持つ単語(またはその組み合わせ)として変換するかを定めたものであって、具体的には、変換対象文字列がとりうる構文およびその構文における単語の属性を示す情報である。例えば、1つの読みで異なる意味をなす単語を含む変換対象文字列に対しては、それぞれの意味をなす単語に変換するための変換ロジックが存在することになる。
なお、仮名漢字変換−予測装置4は、具体的には、入力された変換対象文字列がとりえた単語の属性とそのときの変換結果とに基づいて、その単語の属性に対応する変換ロジックの中で変換結果を抽出するために用いた変換ロジックの優先度を上げることによって学習する。また、仮名漢字変換−予測装置4は、新たに入力される対象文字列に対して、その変換対象文字列がとりえる単語の属性の組み合わせ(または最も近い属性の組み合わせ)において学習した各変換ロジックの優先度に基づいて、その変換対象文字列に適用可能な変換ロジックの中で優先順位を決定し、その優先順位に沿って変換処理を行う。
また、本実施の形態においては、仮名漢字変換−予測装置4は、仮名漢字変換−予測制御部41と、仮名漢字変換−予測エンジン(コア部)42と、仮名漢字変換−予測エンジン(ユーザ依存部)43と、仮名漢字変換−予測辞書44とを含んで構成される。
仮名漢字変換−予測制御部41は、仮名漢字変換−予測エンジン(コア部)42および仮名漢字変換−予測エンジン(ユーザ依存部)43に対し必要な指示を行うことによって、ユーザの入力履歴(変換履歴を含む)を仮名漢字変換−予測エンジン(ユーザ依存部)43に反映させるとともに、仮名漢字変換−予測エンジン(コア部)42と仮名漢字変換−予測エンジン(ユーザ依存部)43とを統合して、変換候補リストを生成する。
具体的には、仮名漢字変換−予測制御部41は、変換結果が確定した際に、仮名漢字変換−予測エンジン(ユーザ依存部)43に、そのとき入力された変換対象文字列に適用可能な変換ロジックにおいて、変換結果として確定した候補を抽出するために用いた変換ロジックの優先度を上げる学習処理を行わせる。また、変換対象文字列が設定された際には、仮名漢字変換−予測エンジン(コア部)42に、仮名漢字変換−予測エンジン(ユーザ依存部)43による学習処理に応じて変化する変換ロジックの優先度に基づいて、変換対象文字列に対する変換候補リストを生成する処理を行わせる。
仮名漢字変換−予測エンジン(コア部)42は、仮名漢字変換−予測辞書44を用いて仮名漢字変換処理および予測変換処理を行い、変換候補文字列に対する変換候補リストを生成する。なお、仮名漢字変換−予測エンジン(コア部)42は、仮名漢字変換−予測エンジン(ユーザ依存部)43による学習処理の応じて変化する変換ロジックの優先度に従って、変換対象文字列に対する変換候補リストを生成する。
仮名漢字変換−予測エンジン(ユーザ依存部)43は、仮名漢字変換処理および予測変換処理の中で、ユーザの入力履歴によりユーザ適応されていく処理部である。仮名漢字変換−予測エンジン(ユーザ依存部)43は、ユーザの入力履歴に基づいて、変換ロジックの優先度を学習する(変化させる)。仮名漢字変換−予測エンジン(ユーザ依存部)43は、学習結果を示す情報として、同じ文字列に対し適用されうる2以上の変換ロジックの組み合わせについて、その組み合わせにおける各変換ロジックの優先度を記述するための優先度テーブルを定める。優先度テーブルは、予め定めておいた変換ロジックのみを対象に、その組み合わせにおける各変換ロジックの優先度を記述するものであってもよいし、変換対象文字列から判別される変換ロジックまたはその組み合わせを随時追加して、その組み合わせにおける各変換ロジックの優先度を記述するものであってもよい。また、変換ロジックの優先度は、例えば、その変換ロジックが優先づけられる度にカウントアップするようなカウンタであってもよい。
仮名漢字変換−予測辞書44は、読みに対応づけて、その読みをもつ単語の各表記(変換候補として提示する仮名漢字交じりの表記)と、その表記で示される単語の属性とを記憶する。なお、単語の属性は、その単語を体系づける分類の数に応じて複数登録されていてもよい。
仮名漢字変換−予測制御部41、仮名漢字変換−予測エンジン(コア部)42、仮名漢字変換−予測エンジン(ユーザ依存部)43は、例えば、プログラムに従って動作するCPUによって実現される。また、仮名漢字変換−予測辞書44は、例えば、記憶装置によって実現される。
次に、図2を参照して本実施の形態の動作について説明する。図2は、本実施の形態による日本語処理装置の動作例を示すフローチャートである。図2に示すように、まず、入力装置1を介して、ユーザから変換対象とする文字列が入力される。入力装置1は、例えば、ユーザのキー操作に応じて、変換対象とする文字列を入力する(ステップA1)。制御部3は、入力装置1からの入力情報を受けて、仮名漢字変換−予測装置4に対し、その入力情報で示される文字列を変換対象文字列として設定して、仮名漢字変換および予測変換を指示する。制御部3は、例えば、スペースキーなどが押されたことを認識して、その前までに入力された文字列を変換対象文字列として仮名漢字変換−予測装置4に通知すればよい。
仮名漢字変換−予測装置4の仮名漢字変換−予測制御部41は、変換対象文字列が設定されると、仮名漢字変換−予測エンジン(コア部)42に、変換対象文字列に対する変換候補リストを生成させる。
仮名漢字変換−予測エンジン(コア部)42は、仮名漢字変換−予測制御部41からの指示をうけて、変換対象文字列に適用可能な変換ロジックの優先順位を判別し、その優先順位に従って、仮名漢字変換−予測辞書44を用いて変換対象文字列に対する変換候補リストを生成する(ステップA2)。変換対象文字列に適用可能な変換ロジックは、構文解析を行ったりや辞書と照らし合わせることで、変換対象文字列がとりうる構文およびその構文において単語がもちうる属性を判別することによって特定すればよい。そして、適用可能な変換ロジックの組み合わせにおける各変換ロジックの優先度の高い順に、変換ロジックを順位づければよい。
仮名漢字変換−予測エンジン(コア部)42は、例えば、仮名漢字変換−予測エンジン(ユーザ依存部)43が管理する優先度テーブルに、変換対象文字列に適用可能な変換ロジックの組み合わせと同じ組み合わせが記述されている場合には、その組み合わせにおける各変換ロジックの優先度に従って、変換ロジックを順位づければよい。また、例えば、優先度テーブルに同じ組み合わせが記述されていない場合には、記述されている組み合わせの中から最も合致する組み合わせを選び、その組み合わせにおける各変換ロジックの優先度に従って、変換ロジックを順位づければよい。なお、優先度テーブルに該当する組み合わせが記述されていない場合には、予め定められたルール(変換ロジックを特定した順番やその属性をもつ単語の辞書における登録順など)に従い、各変換ロジックを順位づければよい。または、予め定めておいた優先度に基づいて適用可能な各変換ロジックを順位づけた上で、優先度テーブルに記述されている最も合致する組み合わせにおける各変換ロジックの優先度に従って、合致した分の変換ロジックの順位を入れ替えるようにしてもよい。
ここで、「かって」という文字列が変換対象として入力された場合を例にとって説明する。尚、この時点では、優先度テーブルには、何も記述されていないものとする。仮名漢字変換−予測エンジン(コア部)42は、「かって」という変換対象文字列に対し、構文解析を行ったりや辞書と照らし合わせることで、変換対象文字列は、「かって」という1つの単語で構成されていること、および「かって」という単語は、”動詞連用形+助動詞”と、”名詞”という属性をもちうることを判別し、「かって」という変換対象文字列に適用可能な変換ロジックとして、「かって」を”動詞連用形+助動詞「て」”で変換する旨を示す変換ロジック1と、”名詞”で変換する旨を示す変換ロジック2の2つの変換ロジックを特定する。そして、仮名漢字変換−予測エンジン(ユーザ依存部)43が管理する優先度テーブルに、変換ロジック1と変換ロジック2の組み合わせにおける変換ロジックの優先度が記述されているか否かを確認する。ここでは、優先度テーブルには、何も記述されていないため、仮名漢字変換−予測エンジン(コア部)42は、予め定められたルールで、変換ロジック1と変換ロジック2とを順位づける。ここでは、変換ロジック1>変換ロジック2という順位付けを行ったものとする。
なお、優先順位の判別は、仮名漢字変換−予測エンジン(コア部)42からの指示を受けて、仮名漢字変換−予測エンジン(ユーザ依存部)43が行うことも可能である。変換対象文字列に適用可能な変換ロジックの優先順位が判別すると、仮名漢字変換−予測エンジン(コア部)42は、判別した優先順位に従って、入力された変換対象文字列に対する変換候補リストを生成する。
仮名漢字変換−予測エンジン(コア部)42は、例えば、優先順位の高い変換ロジックから順に変換対象文字列に変換ロジックを適用し、その変換ロジックで示される構文にそって各単語の属性を特定し、各単語についてその読みと属性とが一致する表記(仮名漢字交じり表記)を辞書から抽出し変換候補としてリスト化することによって、変換ロジックの優先順位に沿った順序で変換候補が提示される変換候補リストを生成すればよい。なお、各変換ロジック毎に、辞書の登録順に所定の件数を抽出する、といった件数制限を持たせてもよい。
例えば、仮名漢字変換−予測辞書44に、「かって」を読みとする仮名漢字交じり表記として、「買って(動詞連用形「買っ」+助動詞「て」)と「勝手(名詞)」の2つが登録されていたとする。仮名漢字変換−予測エンジン(コア部)42は、「かって」という変換対象文字列に適用可能な変換ロジックについて、変換ロジック1(”動詞連用形+助動詞「て」”)>変換ロジック2(”名詞”)という優先順位が判別した場合には、まず、変換ロジック1(”動詞連用形+助動詞「て」”)を適用して変換候補「買って」を抽出する。次に、変換ロジック2(”名詞”)を適用して変換候補「勝手」を抽出する。そして、1.「買って」,2.「勝手」という提示順序の変換候補リストを生成する。なお、1つの変換ロジックで複数の表記が抽出できる場合には、予め決められたルール(辞書の登録順等)に従って、提示順序を定めればよい。
そして、生成した変換候補リストを表示する。具体的には、制御部3が、変換候補に関する情報として、仮名漢字変換−予測制御部41を介して仮名漢字変換−予測エンジン(コア部)42によって生成された変換候補リストを取得し、その変換候補リストを表示するための出力情報を生成して、出力装置2に表示させる。
ユーザは、出力装置2によって表示される変換候補リストの中から、入力したい変換候補を選択、決定する。入力装置1は、ユーザの選択操作に応じて、変換候補の1つに対する確定指示を入力する(ステップA3)。入力装置1からの入力情報を受けて、制御部3は、確定指示された変換候補を変換結果として確定させるとともに、仮名漢字変換−予測装置4に対し、確定した変換候補を通知する。
仮名漢字変換−予測装置4の仮名漢字変換−予測制御部41は、確定した変換候補の通知を受けて、仮名漢字変換−予測エンジン(ユーザ依存部)43に、その変換結果により判別できる、優先されるべき変換ロジックを学習結果として反映させる(ステップA4)。
仮名漢字変換−予測制御部41は、例えば、変換結果として確定した変換候補を仮名漢字変換−予測エンジン(ユーザ依存部)43に通知し、仮名漢字変換−予測エンジン(ユーザ依存部)43が、変換結果とその変換対象文字列に含まれる単語の属性とに基づいて、変換ロジックの優先度を更新する。具体的には、その変換対象文字列に適用可能な変換ロジックの組み合わせに対し、変換結果として確定された変換候補を抽出するために用いた変換ロジックの優先度を上げる。仮名漢字変換−予測エンジン(ユーザ依存部)43は、例えば、その変換対象文字列に適用可能な変換ロジックの組み合わせについて定めている優先度テーブルに含まれる各変換ロジックのうち、確定した変換候補を抽出するために用いた変換ロジックの優先度を示す変換優先度カウンタをカウントアップする。なお、優先度テーブルに、その変換対象文字列に適用可能な変換ロジックの組み合わせについての定義がなされていない場合には、その組み合わせを定義するとともに、その組み合わせにおける各変換ロジックの優先度を初期化した上で、確定した変換候補を抽出するために用いた変換ロジックの優先度を示す変換優先度カウンタをカウントアップすればよい。
なお、変換対象文字列に適用可能な変換ロジックの組み合わせに対し、変換結果として確定された変換候補を抽出するために用いた変換ロジックの優先度を上げることは、その変換対象文字列がとりうる構文およびその構文において単語がもちうる属性に対し、変換結果として確定された表記の単語の属性の優先度を上げることを意味する。
図3は、優先度テーブルの例を示す説明図である。図3に示すように、同じ文字列に対し適用されうる2以上の変換ロジックの組み合わせについて、その組み合わせに含まれる変換ロジック毎に、その変換ロジックを識別するための識別子と、その変換ロジックの内容と、その組み合わせにおけるその変換ロジックの優先度を示す変換優先度カウンタとを定めてもよい。
図3では、「かって」に適用されるような、変換対象文字列を”動詞連用形+助動詞「て」”で変換する旨を示す変換ロジック1と、”名詞”で変換する旨を示す変換ロジック2との組み合わせについて定義した優先度テーブルの例を示している。また、図3では、変換ロジック1と変換ロジック2とが適用可能な変換対象文字列に対し、変換ロジック2を用いて抽出した変換候補が確定された場合の変換優先度カウンタの更新例も示している。図3に示すように、例えば、各変換ロジックの変換優先度カウンタが0に初期化されている状態で、「かって」という変換対象文字列に対し、1.「買って」,2.「勝手」とを変換候補リストとして提示し、「勝手(名詞)」が変換結果として確定した場合には、変換ロジック2の変換優先度カウンタを0から1に更新する。
これらのステップによって、次の文字列入力時、その文字列がとりうる単語の属性に対応する変換ロジックの組み合わせに対し、それ以前の入力文字列に対する変換結果が反映された変換ロジックの優先順位に従って変換候補を抽出することによって、変換候補の提示順序をユーザ適応させることができる。例えば、「かって」という文字列に対し、1.「買って」と、2.「勝手」とを提示する変換候補リストの中から、2.「勝手」が変換結果として確定され場合に、変換ロジック1(”動詞連用形+助動詞「て」”)と変換ロジック2(”名詞”)との組み合わせにおいては、変換ロジック2が優先されることを学習することによって、次に、その組み合わせが適用されるような文字列「とって」が入力された際に、「取っ手(名詞)」の提示順を、「取って(動詞連用形+助動詞「て」)」よりも上げて表示することができる。
なお、仮名漢字変換−予測エンジン(ユーザ依存部)43は、ユーザが過去に「かってほしい」という文字列入力に対し、「買って欲しい」という変換結果を確定している場合には、「かって」という文字列に対し適用可能な変換ロジックの組み合わせにおいて変換ロジック2(”名詞”)を優先させるという学習とともに、変換ロジック1(”動詞連用形+助動詞「て」”)を優先させる場合には、「かって」で区切って入力しないという学習も合わせて行っていることになる。
これは、変換ロジックの優先度を、その変換対象文字列に対し適用可能な組み合わせにおいて定義するからである。すなわち、「かってほしい」という文字列に対し適用可能な変換ロジックの組み合わせと、「かって」という文字列に対し適用可能な変換ロジックの組み合わせとを区別して、「かってほしい」という文字列に対し適用可能な変換ロジックの組み合わせにおける、「買って欲しい」を優先させるための変換ロジック(例えば、”動詞連用形+助動詞「て」+補助形容詞「ほしい」”)の優先度を更新しないからである。なお、組み合わせを区別する方法としては、変換対象文字列全てを1つの変換ロジックと見て区別する方法や、1つの単語を基準にその単語の前後の単語の属性を含めて1つの変換ロジックと見て区別する方法がある。
このように、本実施の形態によれば、ある入力文字列に対する変換結果を、そのときの文字列がとりえる単語の属性に対応づけて学習するので、ユーザが過去に入力していない単語であっても、その単語のとりうる属性に基づいて、そのユーザに適応した変換ロジックを優先させることができる。従って、変換ロジックの優先度に沿って変換候補リストを生成すれば、ユーザが過去に入力していない単語であっても、その変換候補の提示順をユーザ適応させることができる。
また、本実施の形態によれば、仮名漢字変換−予測エンジンをコア部とユーザ依存部とに分けているので、ハードウェアリソースに制限のある小型装置(携帯電話機など)への搭載が容易である。すなわち、現在小型装置で実現できている仮名漢字変換・予測処理に対して、仮名漢字変換−予測エンジン(ユーザ依存部)43を切り出すだけで実現可能である。具体的には、変換ロジックの適用順序について、固定の順序で処理していたところを、その組み合わせ毎の変換優先度カウンタを設けて、ユーザの使用状況で処理優先度を変えられるような対応をとるだけで実現可能である。また、同じハードウェアリソース条件であれば、小型装置での実現を対象としない方式に比べ、本実施の形態による方式は、処理速度の向上が見込まれる。
なお、上記実施の形態では、仮名漢字変換のための変換ロジックの例を示しているが、予測変換のための変換ロジックであっても基本的な動作は同様である。この場合、変換ロジックは、具体的には、変換対象文字列を含んだ単語の全読みとその単語の属性とを示す情報であればよい。例えば、「か」や「かっ」と入力された際に、その文字列から始まる単語の変換候補を、仮名漢字変換−予測辞書44から検索して変換候補リストを生成すればよい。その際、仮名漢字変換−予測エンジン(ユーザ依存部)43によって決定された変換ロジックの優先順位に従って、仮名漢字変換−予測辞書44から変換候補を抽出すればよい。
実施の形態2.
次に、本発明の第2の実施の形態について図面を参照して説明する。図4は、本発明の第2の実施の形態による日本語処理装置の構成例を示すブロック図である。図4に示すように、本実施の形態は、図1に示す第1の実施の形態と比べて、仮名漢字変換−予測装置4が、仮名漢字変換−予測辞書(ユーザ依存部)45を有する点で異なる。
仮名漢字変換−予測辞書(ユーザ依存部)45は、仮名漢字変換−予測辞書44に登録されている各読みに対応づけて、その単語レベルの学習結果を示す情報を記憶する。単語レベルの学習結果を示す情報として、例えば、その読みをもつ各単語(仮名漢字交じり表記で区別される単語)毎に、確定頻度を示す情報を記憶してもよい。また、その読みをもつ単語の中で最新の変換結果となった単語を示す情報を記憶してもよい。なお、仮名漢字変換−予測辞書(ユーザ依存部)45は、仮名漢字変換−予測辞書44に組み込まれることによって、1つの辞書として実現されてもよい。
図5は、本実施の形態による日本語処理装置の動作例を示すフローチャートである。図5に示すように、本実施の形態では、変換候補の確定結果に基づく学習の結果を、変換ロジックだけでなく、単語レベルでも反映させる(ステップB4)。仮名漢字変換−予測制御部41は、例えば、変換結果として確定された変換候補を仮名漢字変換−予測エンジン(ユーザ依存部)43に通知する。変換結果が通知された仮名漢字変換−予測エンジン(ユーザ依存部)43は、優先されるべき変換ロジックを優先度テーブルに反映させるとともに、変換候補の読みに対し優先されるべき単語(仮名漢字交じり表記)を判別して、仮名漢字変換−予測辞書(ユーザ依存部)45に反映させる。仮名漢字変換−予測エンジン(ユーザ依存部)43は、単語仮名漢字変換−予測辞書(ユーザ依存部)45にその変換候補の読みと対応づけて登録されている単語レベルの学習結果を示す情報を更新すればよい。例えば、単語レベルの学習結果を示す情報として、その読みをもつ単語毎に確定頻度を示す情報を登録している場合には、その変換候補である単語(仮名漢字交じり表記)の確定頻度を更新すればよい。また、例えば、単語レベルの学習結果を示す情報として、その読みをもつ単語の中で最新の変換結果となった単語を示す情報を登録している場合には、その変換候補の単語(仮名漢字交じり表記)を最新の変換結果として登録すればよい。
また、本実施の形態では、ステップB2において、仮名漢字変換−予測エンジン(コア部)42が変換候補リストを生成する際に、仮名漢字変換−予測エンジン(ユーザ依存部)43が管理する優先度テーブルによって判別した各変換ロジックの優先順位と、仮名漢字変換−予測辞書(ユーザ依存部)45に記憶されている単語レベルの学習結果とに基づいて、各変換候補の提示順序を決定する。
例えば、仮名漢字変換−予測エンジン(コア部)42は、変換ロジックの優先順位に従い、変換候補を抽出する際に、その変換ロジックによって抽出される単語の提示順序については、最新の変換結果となった単語や確定頻度の高い単語が早く提示されるような順序にしてもよい。また、単語レベルの学習結果によっては、変換ロジックの優先順位よりも単語レベルの学習結果を優先させてもよい。例えば、最新の変換結果となった単語や確定頻度が所定の値を上回っている単語については、変換ロジックの優先度に関係なく早く提示されるような順序としてもよい。なお、他の点に関しては、第1の実施の形態と同様である。
以上のように、本実施の形態によれば、ある入力文字列に対する変換結果を、そのときの文字列がとりえた単語の属性に対応づけて学習するとともに、そのときの文字列が示す読みに対応づけても学習するので、例えば、過去に入力した単語について、ロジックレベルでの並べ替えが適切でないケースを救うことが可能となる。すなわち、仮名漢字変換−予測辞書にもユーザ依存部を設けることで、ロジック単位の適応に対して、例外を持たせたいようなケースを単語レベルで保管するきめ細かい対応が可能である。
本発明は、入力文字列に対し日本語変換処理を行う装置であれば適用可能であるが、特に、携帯端末機やパーソナルコンピュータのように、一人のユーザが限定して使用するような装置に好適に適用可能である。
第1の実施の形態による日本語処理装置の構成例を示すブロック図である。 第1の実施の形態による日本語処理装置の動作例を示すフローチャートである。 優先度テーブルの一例を示す説明図である。 第2の実施の形態による日本語処理装置の構成例を示すブロック図である。 第2の実施の形態による日本語処理装置の動作例を示すフローチャートである。
符号の説明
1 入力装置
2 出力装置
3 制御部
4 仮名漢字変換−予測装置
41 仮名漢字変換−予測制御部
42 仮名漢字変換−予測エンジン(コア部)
43 仮名漢字変換−予測エンジン(ユーザ依存部)
44 仮名漢字変換−予測辞書
45 仮名漢字変換−予測辞書(ユーザ依存部)

Claims (6)

  1. 入力された変換対象文字列に対し、日本語変換を行う日本語変換手段を備え、
    前記日本語変換手段は、
    変換対象文字列がとりうる構文およびその構文において各単語がもちうる品詞を判別して、該変換対象文字列に対し適用可能な変換ロジックであって変換対象文字列をどのような品詞を持つ単語またはその組み合わせとして変換するかを定めた変換ロジックを特定する変換ロジック特定手段と、
    入力された変換対象文字列に対しユーザの操作に応じて変換結果が確定すると、変換対象文字列がとりうる単語の品詞および該変換対象文字列に対し確定した変換結果に基づいて、次回以降に入力される変換対象文字列に対し適用させる変換ロジックの優先順位をユーザの入力履歴に基づいて変化させるために付される優先度であって、該変換対象文字列がとりうる単語の品詞の組み合わせにおける変換ロジックの優先度を学習する変換ロジック学習手段と、
    新たに変換対象文字列が入力されると、該変換対象文字列がとりうる品詞の組み合わせまたはそれに最も近い品詞の組み合わせにおいて学習された変換ロジックの優先度に従って、該変換対象文字列に対する変換候補リストを生成する変換処理手段とを含み、
    前記変換ロジック学習手段は、入力された変換対象文字列に対し変換結果が確定すると、該変換対象文字列に対し適用可能な変換ロジックの組み合わせに対して、変換結果となった表記を抽出するために用いた変換ロジックの優先度を上げる制御を行う
    ことを特徴とする日本語処理装置。
  2. 変換ロジック学習手段は、変換対象文字列に対し変換結果が確定すると、該変換対象文字列に対し適用可能な変換ロジックの組み合わせと、変換対象文字列を一部に含む文字列に対し適用可能な変換ロジックの組み合わせとを区別して、該変換対象文字列に対し適用可能な変換ロジックの組み合わせに対して、変換結果となった表記を抽出するために用いた変換ロジックの優先度を上げる制御を行うとともに、該変換対象文字列を一部に含む文字列に対し適用可能な変換ロジックの組み合わせにおける、変換結果となった表記を抽出するために用いた変換ロジックについて区切って入力しないことを学習する
    請求項1に記載の日本語処理装置。
  3. 変換ロジック学習手段は、同じ文字列に対し適用されうる2以上の変換ロジックの組み合わせについて、該組み合わせにおける各変換ロジックの優先度を記述するためのロジック優先度テーブルを定め、
    前記変換ロジック学習手段は、変換対象文字列に対し変換結果が確定すると、該変換対象文字列に適用可能な変換ロジックの組み合わせについて定めた前記ロジック優先度テーブルで、変換結果となった表記を抽出するために用いた変換ロジックの優先度を上げるよう更新し、
    変換処理手段は、新たに変換対象文字列が入力されると、前記ロジック優先度テーブルで示される該変換対象文字列に対し適用可能な変換ロジックの組み合わせと同じ組み合わせまたは最も合致する組み合わせにおける各変換ロジックの優先度に従って、該変換対象文字列に対する変換候補リストを生成する
    請求項1または請求項2に記載の日本語処理装置。
  4. 日本語変換手段は、仮名漢字変換用辞書として、読みと、前記読みをもつ単語の各表記と、前記表記が示す単語の品詞とを対応づけて記憶する仮名漢字変換用辞書記憶手段を含み、
    変換処理手段は、変換ロジックの優先度が高い順に変換ロジックを変換対象文字列に適用し、前記仮名漢字変換用辞書から、適用した変換ロジックによって特定される単語の読みおよび品詞が一致する表記を変換候補として抽出して、変換候補リストを生成する
    請求項1から請求項3のうちのいずれか1項に記載の日本語処理装置。
  5. 変換ロジック学習手段は、同じ文字列に対し適用されうる2以上の変換ロジックの組み合わせについて、該組み合わせにおける各変換ロジックの優先度を記述するためのロジック優先度テーブルを定めるとともに、仮名漢字変換用辞書に登録されている読みについて、前記読みをもつ表記が示す各単語の優先度を記述するための単語優先度テーブルを定め、
    前記変換ロジック学習手段は、変換対象文字列に対し変換結果が確定すると、該変換対象文字列に適用可能な変換ロジックの組み合わせについて定めた前記ロジック優先度テーブルで、変換結果となった表記を抽出するために用いた変換ロジックの優先度を上げるよう更新するとともに、変換結果の単語の読みについて定めた前記単語優先度テーブルで、変換結果となった表記が示す単語の優先度を上げるよう更新し、
    変換処理手段は、新たに変換対象文字列が入力されると、前記ロジック優先度テーブルで示される該変換対象文字列に対し適用可能な変換ロジックの組み合わせと同じ組み合わせまたは最も合致する組み合わせにおける各変換ロジックの優先度と、前記単語優先度テーブルで示される各単語の優先度とに基づいて、該変換対象文字列に対する変換候補リストを生成する
    請求項1から請求項4のうちのいずれか1項に記載の日本語処理装置。
  6. 入力された変換対象文字列に対し、日本語変換を行うための日本語処理用プログラムであって、
    コンピュータに、
    変換対象文字列がとりうる構文およびその構文において各単語がもちうる品詞を判別して、該変換対象文字列に対し適用可能な変換ロジックであって該変換対象文字列をどのような品詞をもつ単語またはその組み合わせとして変換するかを定めた変換ロジックを特定する変換ロジック特定処理、
    入力された変換対象文字列に対しユーザの操作に応じて変換結果が確定すると、変換対象文字列がとりうる単語の品詞および該変換対象文字列に対し確定した変換結果に基づいて、次回以降に入力される変換対象文字列に対し適用させる変換ロジックの優先順位をユーザの入力履歴に基づいて変化させるために付される優先度であって、該変換対象文字列がとりうる単語の品詞の組み合わせにおける変換ロジックの優先度を学習する変換ロジック学習処理、および
    新たに変換対象文字列が入力されると、該変換対象文字列がとりうる品詞の組み合わせまたは最も近い品詞の組み合わせにおいて学習された変換ロジックの優先度に従って、該変換対象文字列に対する変換候補リストを生成する変換処理を実行させ、
    前記変換ロジック学習処理で、入力された変換対象文字列に対し変換結果が確定すると、該変換対象文字列に対し適用可能な変換ロジックの組み合わせに対して、変換結果となった表記を抽出するために用いた変換ロジックの優先度を上げる制御を行わせる
    ための日本語処理用プログラム。
JP2007014539A 2007-01-25 2007-01-25 日本語処理装置、日本語処理方法、および日本語処理用プログラム Expired - Fee Related JP5228325B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007014539A JP5228325B2 (ja) 2007-01-25 2007-01-25 日本語処理装置、日本語処理方法、および日本語処理用プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007014539A JP5228325B2 (ja) 2007-01-25 2007-01-25 日本語処理装置、日本語処理方法、および日本語処理用プログラム

Publications (2)

Publication Number Publication Date
JP2008181357A JP2008181357A (ja) 2008-08-07
JP5228325B2 true JP5228325B2 (ja) 2013-07-03

Family

ID=39725213

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007014539A Expired - Fee Related JP5228325B2 (ja) 2007-01-25 2007-01-25 日本語処理装置、日本語処理方法、および日本語処理用プログラム

Country Status (1)

Country Link
JP (1) JP5228325B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0374763A (ja) * 1989-08-16 1991-03-29 Sanyo Electric Co Ltd かな漢字変換方式
JPH04213754A (ja) * 1990-12-11 1992-08-04 Fujitsu Ltd 文節区切り学習方式
JPH05189413A (ja) * 1992-01-10 1993-07-30 Fuji Xerox Co Ltd かな漢字変換装置
JP2005100468A (ja) * 2004-12-24 2005-04-14 Mitsubishi Electric Corp 文字入力装置
JP4769031B2 (ja) * 2005-06-24 2011-09-07 マイクロソフト コーポレーション 言語モデルを作成する方法、かな漢字変換方法、その装置、コンピュータプログラムおよびコンピュータ読み取り可能な記憶媒体

Also Published As

Publication number Publication date
JP2008181357A (ja) 2008-08-07

Similar Documents

Publication Publication Date Title
US7953692B2 (en) Predicting candidates using information sources
KR100891358B1 (ko) 사용자의 다음 문자열 입력을 예측하는 글자 입력 시스템및 그 글자 입력 방법
CN107025217B (zh) 同义转换文生成方法、装置、记录介质以及机器翻译系统
CN105183761B (zh) 敏感词替换方法和装置
US7395203B2 (en) System and method for disambiguating phonetic input
EP1861768B1 (en) Human-to-mobile interfaces
KR101983975B1 (ko) 문장 분류에 기반하는 문서 자동분류 방법 및 그 장치
US20050228639A1 (en) Electronic dictionary with example sentences
JP5372148B2 (ja) モバイルデバイス上で日本語テキストを処理する方法およびシステム
JP2005202917A (ja) 表音入力の曖昧さを除くためのシステムおよび方法
JPH11272664A (ja) テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
JP6031764B2 (ja) 文字入力用のプログラムおよび情報処理装置ならびに文字入力動作の設定方法
JP4655109B2 (ja) 文字入力用のプログラムおよび文字入力装置ならびに文字入力方法
US20130041890A1 (en) Method for displaying candidate in character input, character inputting program, and character input apparatus
CN101995963B (zh) 词汇自适应中文输入方法
KR101130206B1 (ko) 입력 순서와 무관한 문자 입력 메커니즘을 제공하는 방법, 기기 및 컴퓨터 프로그램 제품
EP2031490A2 (en) Electronic dictionary, search method for and electronic dictionary, and search program for an alectronic dictionary
JP2011065255A (ja) データ処理装置、データ名生成方法及びコンピュータプログラム
JP5228325B2 (ja) 日本語処理装置、日本語処理方法、および日本語処理用プログラム
JP6221275B2 (ja) 文字入力用のプログラムおよび文字入力装置
JP2007257188A (ja) 辞書検索装置およびその制御プログラム
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
JP2020113048A (ja) 情報処理装置及びプログラム
JP5573257B2 (ja) 文字入力用のプログラムおよび通信端末装置
JP5278474B2 (ja) 情報出力装置及び情報出力プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120214

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120406

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121016

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130128

A911 Transfer of reconsideration by examiner before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130304

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160329

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees