JP2004362496A - 単語登録装置、単語登録方法及び単語登録プログラム - Google Patents
単語登録装置、単語登録方法及び単語登録プログラム Download PDFInfo
- Publication number
- JP2004362496A JP2004362496A JP2003163203A JP2003163203A JP2004362496A JP 2004362496 A JP2004362496 A JP 2004362496A JP 2003163203 A JP2003163203 A JP 2003163203A JP 2003163203 A JP2003163203 A JP 2003163203A JP 2004362496 A JP2004362496 A JP 2004362496A
- Authority
- JP
- Japan
- Prior art keywords
- word
- character string
- reading
- dictionary
- registration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
【解決手段】単語文字列及びその読みを関連付けて格納し、読みから単語文字列への変換に使用される単語辞書21に対して、未登録の単語文字列及びその読みを登録する単語登録装置30であって、既に文字列に変換された文章を対象とし、単語文字列抽出用キーワードを用いて、単語辞書の登録対象となる単語文字列を抽出し、抽出した単語文字列を文字単位に分解するとともに、分解した各文字の読みを単語辞書21から検索し、検索した複数の読みを結合して、抽出した単語文字列の読みを生成し、抽出した単語文字列及び生成した読みを関連付けて単語辞書21に登録する。
【選択図】 図3
Description
【発明の属する技術分野】
本発明は、単語文字列及びその読みを関連付けて格納し、読みから単語文字列(表記)への変換に使用される単語辞書に対して、未登録の単語文字列及びその読みを登録する機能を備える携帯電話機、携帯電子メール端末、PDA、パーソナルコンピュータなどの単語登録装置に関し、さらには、その単語登録方法及び単語登録プログラムに関する。
【0002】
【従来の技術】
文書入力が行われる携帯電話機、携帯電子メール端末、PDA、パーソナルコンピュータなどの装置には、キーボードなどから入力された読み(かな、ローマ字など)を、単語文字列(漢字、カタカナなど)へ変換する変換プログラム(FEP、IME)が搭載されている。
【0003】
この種の変換プログラムは、読み入力後の変換操作に応じて、単語辞書から読みに対応する文字列を検索し、これを未確定状態で表示する。変換された文字列が正しい場合は、確定操作に応じて、変換文字列の入力を確定する一方、変換文字列が正しくない場合は、変換候補切り換え操作、文節区切り変更操作などに応じて、変換文字列の修正を行う。
【0004】
通常、上記のような変換プログラムは、その変換精度を向上させるために、単語登録機能を備えている。単語登録機能は、未登録単語を単語辞書に追加登録する機能であり、その際には、単語文字列及びその読みが入力される。したがって、ユーザは、未登録単語を逐次又は一括して単語辞書に追加登録することにより、精度の高い文字列変換を行うことが可能になる。
【0005】
ところで、近年においては、電子メールなどの普及に伴い、他のユーザが作成した文書を参照しながら、文書入力を行うケースが増えている。このようなケースでは、参照する文書の一部を引用することがあり、このときユーザは、引用部分の読みを入力し、漢字などの文字列に変換することになる。
しかしながら、上記の引用部分に、ユーザが通常使用しない単語文字列が含まれ、かつ、その単語文字列が辞書登録されていない場合には、正しい文字列変換が行われず、文章入力の効率が低下するという問題がある。
【0006】
そこで、既に文字列に変換された文章から未登録の単語文字列を自動的に抽出するもの(例えば、特許文献1、2参照。)、文書ファイルに含まれる未登録の単語文字列を変換候補として表示可能にするもの(例えば、特許文献3参照。)、未登録の単語文字列及びその読みを単語辞書に自動的に登録するもの(例えば、特許文献4参照。)などが提案されている。
【0007】
【特許文献1】
特開平7−21170号公報(第3頁、第2図)
【特許文献2】
特開2002−229999号公報(第9頁、第4図)
【特許文献3】
特開平10−334090号公報(第4頁、第7図)
【特許文献4】
特開平11−85761号公報(第9頁、第5図)
【0008】
【発明が解決しようとする課題】
しかしながら、特許文献1、2に示されるものは、既に文字列に変換された文章から未登録の単語文字列を自動的に抽出するものの、抽出した単語文字列を単語辞書に登録する際には、ユーザが読みを入力する必要がある。
なお、特許文献1、2では、文章から単語文字列を自動的に抽出するための具体的な方法が開示されていない。
【0009】
また、特許文献3に示されるものは、文書入力時に未登録の単語文字列及びその読みを抽出するとともに、これらの情報を文書ファイルに付加しておき、その文書ファイルを他のユーザが開いて編集/修正する際、付加情報にもとづいて未登録の単語文字列も変換候補として表示するものである。つまり、特許文献3に示されるものでは、文書ファイルに特殊な情報を付加することが前提となっており、同じ変換プログラムを使用するユーザ間でなければ、効果が発揮されないという問題がある。
【0010】
また、特許文献4に示されるものは、ユーザが入力した文字列を対象とし、そこに含まれる未登録の単語文字列を、その読みとともに単語辞書に自動的に登録するものであり、既に文字列に変換された電子メールなどの文章から単語文字列を抽出するものではない。
また、特許文献4に示されるものでは、複雑な形態素解析ルーチンを用いて文字列の抽出を行っているため、仮に、電子メールなどの変換済み文書を対象とした場合には、装置の処理負担が増大するという問題がある。特に、ハードウエアリソースに制限がある携帯電話機などの小型装置では、処理能力の不足により実施困難となる可能性が高い。
【0011】
本発明は、上記の事情にかんがみなされたものであり、既に文字列に変換された文章を対象とし、未登録の単語文字列を抽出するとともに、その読みを生成し、抽出した単語文字列及び生成した読みを単語辞書に登録することにより、ユーザによる単語登録作業を軽減でき、しかも、単語文字列の抽出処理及び読みの生成処理を可及的に簡略化することにより、ハードウエアリソースに制限がある携帯電話機などの小型装置でも実施することができる単語登録装置、単語登録方法及び単語登録プログラムの提供を目的とする。
【0012】
【課題を解決するための手段】
上記目的を達成するため本発明の単語登録装置は、単語文字列及びその読みを関連付けて格納し、読みから単語文字列への変換に使用される単語辞書に対して、未登録の単語文字列及びその読みを登録する単語登録装置であって、既に文字列に変換された文章を対象とし、単語文字列抽出用キーワードを用いて、前記単語辞書の登録対象となる単語文字列を抽出する単語文字列抽出手段と、抽出した前記単語文字列を文字単位に分解するとともに、分解した各文字の読みを前記単語辞書から検索し、検索した複数の前記読みを結合して、抽出した前記単語文字列の読みを生成する読み生成手段と、抽出した前記単語文字列及び生成した前記読みを関連付けて前記単語辞書に登録する単語登録手段と、を備える構成としてある。
【0013】
単語登録装置をこのように構成すれば、既に文字列に変換された文章を対象とし、未登録の単語文字列を抽出するとともに、その読みを生成し、抽出した単語文字列及び生成した読みを単語辞書に登録することが可能になる。これにより、ユーザによる単語登録作業を軽減できるとともに、既に文字列に変換された文章を参照しながら文書入力を行う際、文章入力の効率を向上させることができる。
【0014】
また、単語文字列抽出用キーワードを用いて、単語文字列を抽出することにより、複雑な形態素解析ルーチンを用いる場合に比べ、単語文字列の抽出処理を簡素化することができる。
また、抽出した単語文字列の読みを文字単位で検索し、検索した複数の読みを結合して単語文字列の読みを生成することにより、読みの生成処理も簡略化することができる。
その結果、装置の処理負担を軽減して、迅速な単語登録処理が可能になるだけでなく、ハードウエアリソースに制限がある携帯電話機などの小型装置でも実施することが可能になる。
【0015】
また、本発明の単語登録装置は、前記単語文字列抽出手段が、前記単語抽出用キーワードに挟まれた単語文字列及び/又は記述記号と前記単語抽出用キーワードに挟まれた単語文字列を抽出し、抽出した単語文字列のうち、前記単語辞書に未登録のものを登録対象とする構成としてある。
単語登録装置をこのように構成すれば、単語文字列の抽出処理が更に簡素化されるため、処理負担の軽減効果を高めることができるだけでなく、処理速度を更に向上させることができる。
【0016】
また、本発明の単語登録装置は、前記単語文字列抽出手段が、漢字のみで構成された単語文字列及び/又はカタカナのみで構成された単語文字列を抽出する構成としてある。
単語登録装置をこのように構成すれば、単語文字列の抽出処理が更に簡素化されるため、処理負担の軽減効果を高めることができるだけでなく、処理速度を更に向上させることができる。
【0017】
また、本発明の単語登録装置は、前記単語辞書が、単語文字列の読みを、単語文字列の文字単位で区切って格納する構成としてある。
単語登録装置をこのように構成すれば、読みから単語文字列へ変換するための辞書データと、抽出した単語文字列の読みを生成するための辞書データを兼用化し、単語辞書容量を小さくすることができる。これにより、ハードウエアリソースに制限がある携帯電話機などでの実施が更に容易となる。
【0018】
また、本発明の単語登録装置は、前記単語辞書が、読みから単語文字列への変換に使用されるオリジナル辞書及びユーザ辞書を備え、前記読み生成手段が、抽出した前記単語文字列の読み検索を、前記オリジナル辞書を用いて行い、前記単語登録手段が、前記ユーザ辞書に対して単語登録を行う構成としてある。
単語登録装置をこのように構成すれば、ユーザ辞書に登録された辞書データに影響を受けることなく、抽出した単語文字列の読みを精度良く生成することができる。
【0019】
また、本発明の単語登録装置は、前記単語登録手段が、抽出した前記単語文字列及び生成した前記読みを表示し、その修正及び/又は登録確認を要求する構成としてある。
単語登録装置をこのように構成すれば、誤って抽出された単語文字列や、誤って生成された読みが、単語辞書に登録されることを防止できるだけでなく、単語登録する単語文字列及びその読みをユーザが認識し、効率の良い文書入力を行うことができる。
【0020】
また、本発明の単語登録装置は、小型の通信用端末機器に内蔵した構成としてある。
本発明の単語登録装置は、単語文字列の抽出処理及び読みの生成処理が簡略化されるため、ハードウエアリソースに制限がある携帯電話機などの小型の通信用端末機器でも実施することが可能になる。
【0021】
また、上記目的を達成するため本発明の単語登録方法は、単語文字列及びその読みを関連付けて格納し、読みから単語文字列への変換に使用される単語辞書に対して、未登録の単語文字列及びその読みを登録する単語登録方法であって、既に文字列に変換された文章を対象とし、単語文字列抽出用キーワードを用いて、前記単語辞書の登録対象となる単語文字列を抽出し、抽出した前記単語文字列を文字単位に分解するとともに、分解した各文字の読みを前記単語辞書から検索し、検索した複数の前記読みを結合して、抽出した前記単語文字列の読みを生成し、抽出した前記単語文字列及び生成した前記読みを関連付けて前記単語辞書に登録する方法としてある。
【0022】
また、本発明の単語登録方法は、小型の通信用端末機器における単語登録において実施するようにしてある。
このようにすれば、単語文字列の抽出処理及び読みの生成処理を簡単に行うことができるので、ハードウエアリソースが制限されている携帯電話機などの小型の通信用端末機器でも実施することが可能になる。
【0023】
単語登録方法をこのような方法にすれば、既に文字列に変換された文章を対象とし、未登録の単語文字列を抽出するとともに、その読みを生成し、抽出した単語文字列及び生成した読みを単語辞書に登録することにより、ユーザによる単語登録作業を軽減できるとともに、効率の良い文書入力を行うことができる。
しかも、単語文字列の抽出処理及び読みの生成処理を可及的に簡略化することにより、ハードウエアリソースに制限がある携帯電話機などの小型装置でも実施することが可能になる。
【0024】
また、上記目的を達成するため本発明の単語登録プログラムは、単語文字列及びその読みを関連付けて格納し、読みから単語文字列への変換に使用される単語辞書に対して、未登録の単語文字列及びその読みを登録する単語登録プログラムであって、単語登録装置に、既に文字列に変換された文章を対象とし、単語文字列抽出用キーワードを用いて、前記単語辞書の登録対象となる単語文字列を抽出させ、抽出した前記単語文字列を文字単位に分解するとともに、分解した各文字の読みを前記単語辞書から検索し、検索した複数の前記読みを結合して、抽出した前記単語文字列の読みを生成させ、抽出した前記単語文字列及び生成した前記読みを関連付けて前記単語辞書に登録させる構成としてある。
【0025】
単語登録プログラムをこのように構成すれば、既に文字列に変換された文章を対象とし、未登録の単語文字列を抽出するとともに、その読みを生成し、抽出した単語文字列及び生成した読みを単語辞書に登録するため、ユーザによる単語登録作業を軽減できる。
【0026】
また、本発明の単語登録プログラムは、小型の通信用端末機器において単語登録を実行させるようにしてある。
このようにすれば、ハードウエアリソースが制限されている携帯電話機などの小型の通信用端末機器でも単語登録を容易に実現できる。
【0027】
【発明の実施の形態】
以下、本発明の実施形態について、図面を参照して説明する。
【0028】
[第一実施形態]
まず、本発明の第一実施形態について、図1〜図3を参照して説明する。
図1は、本発明の第一実施形態に係る文書入力装置(単語登録装置)のハードウエア構成を示すブロック図である。
【0029】
この図に示される文書入力装置1は、機能的に本発明の単語登録装置を備えるものであり、例えば、携帯電話機、携帯電子メール端末、PDA、パーソナルコンピュータなどの文書入力機能を有する装置によって構成されている。
例えば、文書入力装置1がパーソナルコンピュータである場合は、ハードウエアとして、キーボードなどの入力部2と、液晶ディスプレイなどの表示部3と、LANなどの通信部4と、ハードディスクなどの記憶部5と、CPUなどの制御部6とを備えて構成される。
【0030】
図2は、本発明の第一実施形態に係る文書入力装置(単語登録装置)の機能構成を示すブロック図である。
この図に示すように、文書入力装置1は、記憶部5に格納されるプログラムにより、文書データベース10、日本語変換装置20、単語登録装置30などを機能的に構成している。
文書データベース10には、ユーザが作成した文書データや、他のユーザが作成した文書データが格納されている。他のユーザが作成した文書データとしては、例えば、受信メールが挙られる。
【0031】
日本語変換装置20は、単語文字列とその読みを関連付けて格納する単語辞書21を用い、読みから単語文字列への変換を行う変換エンジン22を備えている。具体的に説明すると、変換エンジン22は、入力部2における読み入力後の変換操作に応じて、単語辞書21から読みに対応する文字列を検索し、これを未確定状態で表示部3に表示する。変換された文字列が正しい場合は、入力部2における確定操作に応じて、変換文字列の入力を確定する一方、変換文字列が正しくない場合は、入力部2における変換候補切り換え操作、文節区切り変更操作などに応じて、変換文字列の修正を行う。
【0032】
単語辞書21には、オリジナル辞書21a及びユーザ辞書21bが含まれる。オリジナル辞書21aは、文書入力装置1に標準装備される単語辞書であり、ユーザ辞書21bは、ユーザによる単語の追加登録が許容される単語辞書である。本実施形態のオリジナル辞書21aでは、後述する抽出単語文字列の読み検索を行うために、単語文字列の読みが、単語文字列の文字単位に区切って格納されている。例えば、「単語文字列:計算機、読み:けいさんき」という単語辞書データにおいては、内部的に「単語文字列:計/算/機、読み:けい/さん/き」と構成されており、「文字:計、読み:けい」「文字:算、読み:さん」「文字:機、読み:き」という単漢字辞書データとしても使用することが可能となっている。
【0033】
単語登録装置30は、単語文字列抽出手段31、読み生成手段32及び単語登録手段33を備えている。
単語文字列抽出手段31は、既に文字列に変換された文書データベース10内の文章データを対象とし、後述する単語文字列抽出用キーワードを用いて、単語辞書21(ユーザ辞書21b)の登録対象となる単語文字列を自動的に抽出する機能的な構成部分である。
本実施形態の単語文字列抽出手段31は、抽出対象とする文書データの条件や、単語文字列の抽出条件を予め設定する機能を備えている。
【0034】
読み生成手段32は、抽出した単語文字列を文字単位に分解するとともに、分解した各文字の読みを単語辞書21(オリジナル辞書21a)から検索し、検索した複数の読みを結合して、抽出した単語文字列の読みを生成する機能的な構成部分である。
また、単語登録手段33は、抽出した単語文字列及び生成した読みを関連付けて単語辞書21(ユーザ辞書21b)に登録する機能的な構成部分である。
本実施形態の単語登録手段33は、抽出した単語文字列及び生成した読みを表示部3に表示し、その修正や登録確認をユーザに要求する機能を備える。
【0035】
つぎに、本実施形態における単語登録装置30の動作について、図3及び図4を参照して説明する。
図3は、本発明の第一実施形態に係る単語登録装置の動作を示すフローチャート、図4は、本発明の第一実施形態に係る単語登録装置が単語文字列の抽出に用いる単語文字列抽出用キーワードを示す説明図である。
【0036】
図3に示すように、まず、ユーザが入力部2から単語文字列抽出条件の入力を行う(S101)。単語文字列抽出手段31は、入力部2から入力された単語文字列抽出条件にしたがって、文書データベース10の抽出対象となる文書データ選択や単語抽出数などの条件設定を行い、その設定に応じて、抽出対象となる文書データから単語文字列を抽出する(S102)。
この単語文字列抽出処理は、図4に示すような単語文字列抽出用キーワードを用いて行われる。例えば、単語文字列抽出用キーワードには、格助詞、格助詞相当、堤題助詞、取り立て助詞、格助詞+取り立て助詞、取り立て助詞+格助詞、接続助詞、判定助詞などが含まれる。
【0037】
具体的には、単語文字列抽出用キーワードの後に続き、単語文字列抽出用キーワードの前までの文字列と、記述記号(句読点、疑問符、感嘆符など)の後に続き、単語文字列抽出用キーワードの前までの文字列が抽出される。
また、抽出する単語文字列は、漢字のみで構成された単語文字列と、カタカナのみで構成された単語文字列に限定しており、単語辞書21(ユーザ辞書21b)の登録対象とする単語文字列は、単語辞書21(オリジナル辞書21a及びユーザ辞書21b)に登録されていない単語文字列である。
【0038】
つぎに、抽出した単語文字列の読みを生成する(S103)。抽出された単語文字列がカタカナであれば、それに対応した読みとし、抽出された単語文字列が漢字であれば、単語辞書21(オリジナル辞書21a)を用いて、単語文字列の読みを生成する。
オリジナル辞書21aでは、前述したように、読みが単語文字列の文字単位で区切られているため、抽出した単語文字列を文字単位に分解し、各文字の読みをオリジナル辞書21aにて検索する。そして、検索した複数の読みを結合して、抽出した単語文字列の読みとする。また、読みの候補が複数存在するときは、ヒット件数が最も多い読みを採用する。
【0039】
つぎに、抽出した単語文字列及び生成した読みを表示部3に表示し(S104)、ユーザに修正又は登録確認を要求する(S105)。ここで、修正が不要な場合は、抽出した単語文字列及び生成した読みを単語辞書21(ユーザ辞書21b)に登録し(S106)、修正が必要な場合は、ユーザが手動で単語文字列又は読みを修正した後(S107)、単語文字列及び読みを単語辞書21(ユーザ辞書21b)に登録する。
その後は、単語辞書21(ユーザ辞書21b)に登録した上記の読みを入力すれば、上記の単語文字列へ変換することが可能になる(S108)。
【0040】
つぎに、本発明の第一実施形態に係る単語登録装置の具体的な動作例について説明する。
例えば、文書データベース10に、「将来、道州制が必要。」という文字列を含む受信メールがあり、オリジナル辞書21aに、「単語文字列:道/路、読み:どう/ろ」、「単語文字列:本/州、読み:ほん/しゅう」、「単語文字列:制/度、読み:せい/ど」という辞書データがある場合を考える。まず、ユーザが該当する受信メールを選択し(S101)、その受信メールに対して、単語文字列の抽出処理を実施する(S102)。この単語文字列抽出ステップでは、受信メールに含まれる文「将来、道州制が必要。」に対して、読点の後に続き、単語文字列抽出用キーワード「が」の前までの文字列で、かつ、文字種が漢字のみで構成されている文字列として「道州制」を抽出する。
【0041】
つぎに、抽出した文字列「道州制」の読みを生成する(S103)。この読み生成処理ステップでは、文字列「道州制」を文字単位に分解し、各文字「道」、「州」、「制」の読みをオリジナル辞書21aにて検索する。本例では、「文字:道、読み:どう」、「文字:州、読み:しゅう」、「文字:制、読み:せい」が検索され、これらを結合して辞書登録候補データ「文字列:道州制、読み:どうしゅうせい」とする。
【0042】
つぎに、抽出した単語文字列及びその読みをユーザに表示し(S104)、修正の有無を確認する(S105)。この場合は、修正が不要であるため、ユーザの確認操作に応じて、辞書登録候補データ「文字列:道州制、読み:どうしゅうせい」をユーザ辞書21bへ登録する(S106)。
以上のステップを実行することにより、つぎに文書入力を行う際、変換エンジン22は、入力された読み「どうしゅうせい」に対し、単語文字列「道州制」という新しい登録単語をユーザ辞書21bから検索し、変換候補として表示することが可能となる(S108)。
【0043】
以上のように構成された本実施形態によれば、既に文字列に変換された文章を対象とし、未登録の単語文字列を抽出するとともに、その読みを生成し、抽出した単語文字列及び生成した読みを単語辞書21に登録することが可能になる。これにより、ユーザによる単語登録作業を軽減できるとともに、既に文字列に変換された文章を参照しながら文書入力を行う際、文章入力の効率を向上させることができる。
【0044】
また、単語文字列抽出用キーワードを用いて、単語文字列を抽出することにより、複雑な形態素解析ルーチンを用いる場合に比べ、単語文字列の抽出処理を簡素化することができる。また、抽出した単語文字列の読みを文字単位で検索し、検索した複数の読みを結合して単語文字列の読みを生成することにより、読みの生成処理も簡略化することができる。その結果、装置の処理負担を軽減して、迅速な単語登録処理が可能になるだけでなく、ハードウエアリソースに制限がある携帯電話機などの小型装置でも実施することが可能になる。
【0045】
また、文字列の抽出処理では、単語抽出用キーワード又は記述記号の後に続き、単語抽出用キーワードの前までの単語文字列で、かつ、漢字又はカタカナのみで構成された単語文字列を抽出し、抽出した単語文字列のうち、ユーザ辞書21bに未登録のものを登録対象とするため、単語文字列の抽出処理を更に簡素化し、処理負担の軽減効果を高めることができるだけでなく、処理速度を更に向上させることができる。
【0046】
また、単語辞書21(オリジナル辞書21a)は、単語文字列の読みを、単語文字列の文字単位で区切って格納するため、読みから単語文字列へ変換するための辞書データと、抽出した単語文字列の読みを生成するための辞書データを兼用化し、単語辞書容量を小さくすることができる。これにより、ハードウエアリソースに制限がある携帯電話機などでの実施が更に容易となる。
【0047】
また、単語辞書21は、読みから単語文字列への変換に使用されるオリジナル辞書21a及びユーザ辞書21bを備え、抽出した単語文字列の読み検索は、オリジナル辞書21aを用いて行い、単語登録は、ユーザ辞書21bに対して行うようにしたので、ユーザ辞書21bに登録された辞書データに影響を受けることなく、抽出した単語文字列の読みを精度良く生成することができる。
【0048】
また、抽出した単語文字列及び生成した読みを表示し、その修正又は登録確認を要求するため、誤って抽出された単語文字列や、誤って生成された読みが、単語辞書21(ユーザ辞書21b)に登録されることを防止できるだけでなく、単語登録する単語文字列及びその読みをユーザが認識し、効率の良い文書入力を行うことができる。
【0049】
[第二実施形態]
つぎに、本発明の第二実施形態について、図5を参照して説明する。
図5は、本発明の第二実施形態に係る単語登録装置の動作を示すフローチャートである。
この図に示される第二実施形態は、文書データベース10の抽出対象となる文書データをユーザが直接選択する点と、抽出した単語文字列及びその読みをユーザに確認することなく単語辞書21(ユーザ辞書21b)に登録する点が前記実施形態と相違している。
【0050】
図5に示すように、第二実施形態では、まず、ユーザが文書データベース10の文書データを選択する(S201)。それ以降は、単語文字列の抽出処理(S202)と、抽出した単語文字列の読み生成処理(S203)と、抽出した単語文字列及び生成した読みの辞書登録処理(S204)とが自動的に実行される。その後は、単語辞書21(ユーザ辞書21b)に登録した上記の読みを入力すれば、上記の単語文字列へ変換することが可能になる(S205)。
【0051】
なお、本実施形態では、ユーザに対する修正要求や登録確認を行わないため、単語文字列の抽出処理及び単語文字列の読み生成処理では、抽出条件や読み生成条件を厳しくし、正解率が高い辞書データのみを抽出、生成することが好ましい。例えば、単語文字列の抽出処理では、図4に示す単語文字列抽出用キーワードにおいて、正解率の高いもののみを使用し、また、読み生成処理では、単語文字列の文字単位の読み検索において、同じ読み候補のヒット件数が、所定の閾値を超えるものだけを使用するなどの条件を加えることにより、精度が高い候補を選択するようにする。
【0052】
つぎに、第二実施形態の具体的な動作について説明する。
例えば、文書データベース10には、「明日は、道州制について議論する。」という文を含む受信メールがあり、オリジナル辞書21aには、「文字列:道/路、読み:どう/ろ」、「文字列:歩/道、読み:ほ/どう」、「文字列:本/州、読み:ほん/しゅう」、「文字列:九/州、読み:きゅう/しゅう」、「文字列:制/約、読み:せい/やく」という辞書データがある場合を考える。
【0053】
ユーザが該当する受信メールを選択すると(S201)、その受信メールに対して単語文字列の自動抽出処理が実施される(S202)。このとき、受信メールに含まれる文「明日は、道州制について議論する。」においては、読点の後に続き、単語文字列抽出用キーワード「について」の前までの文字列で、かつ、文字種が漢字で構成されている文字列として「道州制」が辞書登録候補として抽出される。ここでは、単語文字列抽出用キーワードとして精度の高い「について」を適用したことにより、抽出精度が高められた。
【0054】
つぎに、抽出した単語文字列の文字単位の読みをオリジナル辞書21aにて検索する。本例では、単語文字列の文字単位の読みとして同一の読みが2候補以上存在することを条件として加える。そして、この条件を満たすものとして、「文字:道、読み:どう」、「文字:州、読み:しゅう」、「文字:制、読み:せい」が検索され、「文字列:道州制、読み:どうしゅうせい」が辞書登録候補として作成される。
【0055】
以上のように構成された本実施形態によれば、第一実施形態の効果に加え、文書データを選択するだけで単語文字列の抽出、単語文字列の読み生成、及び単語文字列及び読みの辞書登録を自動的に実施できるという効果が得られる。
しかも、単語文字列の抽出条件や単語文字列の読み生成条件を厳しくすることにより、登録辞書データの精度低下も回避することができる。
【0056】
[第三実施形態]
つぎに、本発明の第三実施形態について、図6を参照して説明する。
図6は、本発明の第三実施形態に係る単語登録装置の動作を示すフローチャートである。
この図に示される第三実施形態は、ユーザが文書データを直接選択することなく、文書データの選択条件を設定する点が第二実施形態と相違している。
ユーザが文書データの選択条件を入力すると(S301)、その条件に合う文書データを対象とし、単語文字列の抽出処理(S302)と、読み生成処理(S303)と、単語文字列及び読みの登録処理(S304)とが自動的に実施され、その後、上記読みから上記単語文字列への変換が可能となる(S305)。
【0057】
上記のように構成された第三実施形態によれば、最初に文書の選択条件を設定するだけで、文書選択を含む全ての単語登録処理を自動化することが可能になる。これにより、ユーザは、受信メールなどで使用されている未登録単語を意識することなく日本語変換することができ、本格的な文脈依存型の日本語変換処理が可能となる。
【0058】
【発明の効果】
以上のように、本発明によれば、既に文字列に変換された文章を対象とし、未登録の単語文字列を抽出するとともに、その読みを生成し、抽出した単語文字列及び生成した読みを単語辞書に登録することにより、ユーザによる単語登録作業を軽減でき、しかも、単語文字列の抽出処理及び読みの生成処理を可及的に簡略化することにより、ハードウエアリソースに制限がある携帯電話機などの小型の通信用端末機器でも実施することができる。
【図面の簡単な説明】
【図1】本発明の第一実施形態に係る文書入力装置(単語登録装置)のハードウエア構成を示すブロック図である。
【図2】本発明の第一実施形態に係る文書入力装置(単語登録装置)の機能構成を示すブロック図である。
【図3】本発明の第一実施形態に係る単語登録装置の動作を示すフローチャートである。
【図4】本発明の第一実施形態に係る単語登録装置が単語文字列の抽出に用いる単語文字列抽出用キーワードを示す説明図である。
【図5】本発明の第二実施形態に係る単語登録装置の動作を示すフローチャートである。
【図6】本発明の第三実施形態に係る単語登録装置の動作を示すフローチャートである。
【符号の説明】
1 文書入力装置
2 入力部
3 表示部
4 通信部
5 記憶部
6 制御部
10 文書データベース
20 日本語変換装置
21 単語辞書
21a オリジナル辞書
21b ユーザ辞書
22 変換エンジン
30 単語登録装置
31 単語文字列抽出手段
32 読み生成手段
33 単語登録手段
Claims (11)
- 単語文字列及びその読みを関連付けて格納し、読みから単語文字列への変換に使用される単語辞書に対して、未登録の単語文字列及びその読みを登録する単語登録装置であって、
既に文字列に変換された文章を対象とし、単語文字列抽出用キーワードを用いて、前記単語辞書の登録対象となる単語文字列を抽出する単語文字列抽出手段と、
抽出した前記単語文字列を文字単位に分解するとともに、分解した各文字の読みを前記単語辞書から検索し、検索した複数の前記読みを結合して、抽出した前記単語文字列の読みを生成する読み生成手段と、
抽出した前記単語文字列及び生成した前記読みを関連付けて前記単語辞書に登録する単語登録手段と、
を備えることを特徴とする単語登録装置。 - 前記単語文字列抽出手段が、前記単語抽出用キーワードに挟まれた単語文字列及び/又は記述記号と前記単語抽出用キーワードに挟まれた単語文字列を抽出し、抽出した単語文字列のうち、前記単語辞書に未登録のものを登録対象とすることを特徴とする請求項1記載の単語登録装置。
- 前記単語文字列抽出手段が、漢字のみで構成された単語文字列及び/又はカタカナのみで構成された単語文字列を抽出することを特徴とする請求項1又は2記載の単語登録装置。
- 前記単語辞書が、単語文字列の読みを、単語文字列の文字単位で区切って格納することを特徴とする請求項1〜3のいずれかに記載の単語登録装置。
- 前記単語辞書が、読みから単語文字列への変換に使用されるオリジナル辞書及びユーザ辞書を備え、前記読み生成手段が、抽出した前記単語文字列の読み検索を、前記オリジナル辞書を用いて行い、前記単語登録手段が、前記ユーザ辞書に対して単語登録を行うことを特徴とする請求項1〜4のいずれかに記載の単語登録装置。
- 前記単語登録手段が、抽出した前記単語文字列及び生成した前記読みを表示し、その修正及び/又は登録確認を要求することを特徴とする請求項1〜5のいずれかに記載の単語登録装置。
- 小型の通信用端末機器に内蔵した請求項1〜6のいずれかに記載の単語登録装置。
- 単語文字列及びその読みを関連付けて格納し、読みから単語文字列への変換に使用される単語辞書に対して、未登録の単語文字列及びその読みを登録する単語登録方法であって、
既に文字列に変換された文章を対象とし、単語文字列抽出用キーワードを用いて、前記単語辞書の登録対象となる単語文字列を抽出し、
抽出した前記単語文字列を文字単位に分解するとともに、分解した各文字の読みを前記単語辞書から検索し、検索した複数の前記読みを結合して、抽出した前記単語文字列の読みを生成し、
抽出した前記単語文字列及び生成した前記読みを関連付けて前記単語辞書に登録する
ことを特徴とする単語登録方法。 - 小型の通信用端末機器における単語登録において実施する請求項8記載の単語登録方法。
- 単語文字列及びその読みを関連付けて格納し、読みから単語文字列への変換に使用される単語辞書に対して、未登録の単語文字列及びその読みを登録する単語登録プログラムであって、
単語登録装置に、
既に文字列に変換された文章を対象とし、単語文字列抽出用キーワードを用いて、前記単語辞書の登録対象となる単語文字列を抽出させ、
抽出した前記単語文字列を文字単位に分解するとともに、分解した各文字の読みを前記単語辞書から検索し、検索した複数の前記読みを結合して、抽出した前記単語文字列の読みを生成させ、
抽出した前記単語文字列及び生成した前記読みを関連付けて前記単語辞書に登録させる
ことを特徴とする単語登録プログラム。 - 小型の通信用端末機器において単語登録を実行させる請求項10記載の単語登録プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003163203A JP4238642B2 (ja) | 2003-06-09 | 2003-06-09 | 単語登録装置、単語登録方法及び単語登録プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003163203A JP4238642B2 (ja) | 2003-06-09 | 2003-06-09 | 単語登録装置、単語登録方法及び単語登録プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004362496A true JP2004362496A (ja) | 2004-12-24 |
JP4238642B2 JP4238642B2 (ja) | 2009-03-18 |
Family
ID=34055089
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003163203A Expired - Fee Related JP4238642B2 (ja) | 2003-06-09 | 2003-06-09 | 単語登録装置、単語登録方法及び単語登録プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4238642B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007047859A (ja) * | 2005-08-05 | 2007-02-22 | Nissan Motor Co Ltd | 文章解析方法、文章解析プログラム、文章解析装置、および文章解析システム |
JP2011209917A (ja) * | 2010-03-29 | 2011-10-20 | Ntt Docomo Inc | 辞書データ配信装置及び辞書データ配信方法 |
-
2003
- 2003-06-09 JP JP2003163203A patent/JP4238642B2/ja not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007047859A (ja) * | 2005-08-05 | 2007-02-22 | Nissan Motor Co Ltd | 文章解析方法、文章解析プログラム、文章解析装置、および文章解析システム |
JP2011209917A (ja) * | 2010-03-29 | 2011-10-20 | Ntt Docomo Inc | 辞書データ配信装置及び辞書データ配信方法 |
Also Published As
Publication number | Publication date |
---|---|
JP4238642B2 (ja) | 2009-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5362095B2 (ja) | インプットメソッドエディタ | |
US8010344B2 (en) | Dictionary word and phrase determination | |
US8412517B2 (en) | Dictionary word and phrase determination | |
US9710452B2 (en) | Input method editor having a secondary language mode | |
US7277029B2 (en) | Using language models to expand wildcards | |
KR101465770B1 (ko) | 단어 확률 결정 | |
US8028230B2 (en) | Contextual input method | |
US8542195B2 (en) | Method for optimization of soft keyboards for multiple languages | |
KR20100015958A (ko) | 멀티모드 다국어 입력기 | |
US10402474B2 (en) | Keyboard input corresponding to multiple languages | |
US20150293975A1 (en) | Method and device for searching for contact object, and storage medium | |
WO2016041428A1 (zh) | 一种英文的输入方法和装置 | |
KR20100046043A (ko) | 키패드 텍스트 입력의 명확화 | |
KR101130206B1 (ko) | 입력 순서와 무관한 문자 입력 메커니즘을 제공하는 방법, 기기 및 컴퓨터 프로그램 제품 | |
US20130289975A1 (en) | Electronic device and method for a bidirectional context-based text disambiguation | |
JP4238642B2 (ja) | 単語登録装置、単語登録方法及び単語登録プログラム | |
JPWO2015075920A1 (ja) | 入力支援装置、入力支援方法及びプログラム | |
JP2018101224A (ja) | 検索装置、検索方法、及びプログラム | |
JP2006039871A (ja) | 類義語検索装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、情報検索装置 | |
CN104268131B (zh) | 用于加速中文输入中的候选选择的方法 | |
JP2004318480A (ja) | 電子機器装置、新語抽出方法、およびプログラム | |
US20230169269A1 (en) | Device, method, and computer-readable storage medium storing a program for assisting text input | |
KR101910491B1 (ko) | 가변길이 그램의 역리스트 동적 생성을 이용한 유사 문자열 검색 방법 및 장치 | |
JP5817602B2 (ja) | 文字入力装置、文字入力による機能実行方法、及び文字入力プログラム | |
US20080189327A1 (en) | Handheld Electronic Device and Associated Method for Obtaining New Language Objects for Use by a Disambiguation Routine on the Device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060516 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071225 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080902 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081030 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081125 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081208 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120109 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130109 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130109 Year of fee payment: 4 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |