JP2010097239A - 辞書作成装置、辞書作成方法、および辞書作成プログラム - Google Patents

辞書作成装置、辞書作成方法、および辞書作成プログラム Download PDF

Info

Publication number
JP2010097239A
JP2010097239A JP2008264789A JP2008264789A JP2010097239A JP 2010097239 A JP2010097239 A JP 2010097239A JP 2008264789 A JP2008264789 A JP 2008264789A JP 2008264789 A JP2008264789 A JP 2008264789A JP 2010097239 A JP2010097239 A JP 2010097239A
Authority
JP
Japan
Prior art keywords
word
dictionary
additional character
registered
registration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008264789A
Other languages
English (en)
Inventor
Hiroshi Kitade
祐 北出
Takafumi Koshinaka
孝文 越仲
Seiichi Miki
清一 三木
Kentaro Nagatomo
健太郎 長友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008264789A priority Critical patent/JP2010097239A/ja
Publication of JP2010097239A publication Critical patent/JP2010097239A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】ユーザ登録単語から辞書にとって最適な単語単位を求めて、前記単位で辞書に登録する。
【解決手段】辞書作成装置は、辞書データを参照して、ユーザ登録単語の部分文字列を含む既知語を求める文字パターン照合手段と、前記辞書データに、前記既知語から前記ユーザ登録単語と部分一致した文字列である共通文字部を除いた付加文字部が登録されているかによって、前記付加文字部の単語登録の要否を判定する単語単位決定手段とを備える。
【選択図】図1

Description

本発明は、辞書作成装置、辞書作成方法、辞書作成プログラムに関し、特にユーザが追加した単語を辞書に登録する辞書作成装置、辞書作成方法、辞書作成プログラムに関する。
情報処理装置で用いられる音声認識などの辞書(データ)は、コーパスとよばれる機械可読テキストの集合を形態素解析によって単語単位に区切って、各々の単語を登録して作成される。すなわち、コーパスに含まれていない単語(未知語と称す)は辞書に含まれない。そのため、新出単語や学習コーパスとは異なる分野に出てくる固有名詞などは未知語となる。よって、例えば、音声認識システムにおいて、未知語を含む音声を入力しても、未知語は音声認識用の辞書に含まれないため、音声認識結果に前記未知語が表れることがない。
この未知語の問題に対処すべく、音声認識システムなどの辞書を含むシステムにおいては、ユーザに単語や例文を入力してもらい(ユーザが入力した単語を以後、ユーザ登録単語と称す)、前記入力単語を辞書に追加する機能が設けられている。しかし、ユーザ登録単語は、不要な語が含まれていることが多く、必ずしも音声認識などにとって最適な単語単位と一致しない。
そこで、ユーザ登録単語を形態素解析し、未知語を辞書に登録する方式が以前より行われている。しかし、前記方式は形態素解析における未知語を単語登録しただけに過ぎず、形態素解析に依存するため、音声認識などに用いる辞書としての最適な単語単位が与えられているわけではない。そこで、未知語およびその前後の既知語を用いて辞書にとって最適な単語区間を求める方式が必要となる。
前記方式の一例が特許文献1に記載されている。特許文献1に記載された辞書登録装置は、図5に示すように、入力制御部と、形態素解析部と、未知語範囲拡張部と、部分一致検索部と、表記類似性判定部と、辞書登録部とから構成される辞書登録装置と、ユーザI/Fと、解析ルールと、辞書と、単語列バッファと、未知語バッファとから構成されるRAMとから構成されている。
このような構成を有する特許文献1に記載された辞書登録装置は次のように動作する。
すなわち、入力制御部にて文書の入力を行い、形態素解析部にて、解析ルールおよび辞書を参照して形態素解析することで単語に分割する。その際、形態素解析と同時に、未知語も抽出される。次に、未知語範囲拡張部にて、前記未知語の前方と後方の少なくとも一方の単語を前記未知語に結合した拡張未知語を生成し、部分一致検索部にて、前記拡張未知語のうち、前記拡張した部分の表記が部分一致する単語を辞書から検索する。表記類似性判定部では、部分一致検索部で抽出された単語において、前記未知語に対応する部分の表記の文字属性と前記未知語の表記の文字属性に基づき、部分一致検索部が検索した単語において前記未知語に対応する部分の表記と、前記未知語の表記との類似性を判定する。表記類似性判定手段が、部分一致検索部が検索した単語において前記未知語に対応する部分の表記と前記未知語の表記とが類似すると判定した場合に、辞書登録部にて前記拡張未知語を前記辞書に登録する。
特開2006−155528号公報
特許文献1に記載の辞書登録装置の問題点は、辞書にとっての最適な単語単位を見つけるために、未知語の前後に既知語が存在しなければならないことである。これは、特許文献1に記載の方式では、前記既知語をキーとして展開される既知語列と、未知語と既知語を結合した単語列を比較して登録単位を判定するためである。すなわち、未知語と既知語を結合した複合語を登録したに過ぎず、最適な単語単位を見つけたとはいえない。例えば、「ウーロンハイ」の部分文字列、「ウーロン」や「ハイ」の両方が未知語であるという条件のもと、「ウーロンハイ」という単語が入力された時、特許文献1に記載の方式では、ユーザ登録単語そのもの(「ウーロンハイ」)もしくは前後の単語を接合した複合語(「○○ウーロンハイ、ウーロンハイ□□等」)しか単語登録できない。即ち、その単語の部分文字列、例えば「ウーロン」を辞書に登録することはできない。
本発明の目的は、ユーザ登録単語に既知語が含まれていない場合に、辞書にとって最適な単語単位を求め、前記単位で単語を辞書に登録することができる辞書作成装置、辞書作成方法、および辞書作成プログラムを提供することにある。
本発明の辞書作成装置は、辞書データを参照して、ユーザ登録単語の部分文字列を含む既知語を求める文字パターン照合手段と、前記辞書データに、前記既知語から前記ユーザ登録単語と部分一致した文字列である共通文字部を除いた付加文字部が登録されているかによって、前記付加文字部の単語登録の要否を判定する単語単位決定手段とを備えたことを特徴とする。
本発明によれば、ユーザ登録単語に既知語が含まれていない場合に、辞書にとって最適な単語単位を求め、前記単位で単語を辞書に登録することができる辞書作成装置、辞書作成方法、および辞書作成プログラムを提供できる。
次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。
図1は、第1の実施の形態の構成を示すブロック図である。図1を参照すると、第1の実施の形態の辞書作成装置は、辞書記憶手段201と、文字パターン照合手段211と、単語単位決定手段212と、単語登録手段213とから構成されている。
辞書記憶手段201は、音声認識用の辞書を記憶する。また、前記辞書記憶手段201は、単語登録手段213にて、追加登録することになった単語を辞書に追加し、更新する。
文字パターン照合手段211は、ユーザ登録単語を入力として、前記辞書記憶手段201に記憶される辞書を参照して、ユーザ登録単語の部分文字列と一致する単語を検索し、結果を単語単位決定手段212に送る。ここで、前記部分文字列とは、単語内の同じ位置、例えば単語の末尾に同じ表記を持つことを指す。すなわち、辞書作成装置が、前記辞書記憶手段201に記憶される辞書を参照して、ユーザ登録単語の前方もしくは後方の文字列と部分一致する単語を検索する。
以下で例を挙げながら詳しく動作を説明する。
例えば、ユーザ登録単語が「レモンスカッシュ:Lemon-squash」であった場合、辞書作成装置は、まず「レモンスカッシュ:Lemon-squash」の部分文字列、例えば「レモ:lem」、「レモン:lemon」、「スカッシュ:squash」、「カッシュ:quash」等々を作成する。次に、文字パターン照合手段211は、辞書を参照して、作成した部分文字列、例えば「レモン:lemon」を含む「レモン〜:lemon〜」という単語や、「スカッシュ:squash」という部分文字列を含む「〜スカッシュ」といった単語の有無を検索する。そして、検索で得られた既知語を単語単位決定手段212に送る(なお、ユーザ登録単語と部分一致した最長文字列を共通文字部、当該単語から前記共通文字部を除いた文字列を付加文字部と称する。)。例えば、「メロンスカッシュ:Melon-squash」、「グレープスカッシュ:Grape-squash」などが既知語であったとすると、上記検索結果として、後者の「スカッシュ:squash」と同じ表記パターンである「メロンスカッシュ:Melon-squash」、「グレープスカッシュ:Grape-squash」が検索でヒットし、単語単位決定手段212に送られる。前記例では、「メロン:Melon」や「グレープ:Grape」が付加文字部、「スカッシュ:squash」が共通文字部となる。ここで、例えば、ユーザ登録単語の部分文字列「カッシュ:quash」で検索した時にも、前記既知語はヒットするものの、共通文字部は一致した最長文字列である「スカッシュ:squash」となる。
単語単位決定手段212は、前記文字パターン照合手段211で得られた共通文字部を含む単語を入力として最適な単語単位を決定し、その結果を単語登録手段213に送る。
具体的には、単語単位決定手段212は、前記文字パターン照合手段211で得られた共通文字部を含む単語から共通文字部を除いた文字列である付加文字部を取得する。共通文字部が既知語と完全に一致した場合、すなわち同単語だった場合は、付加文字部はnullとなる。次に、単語単位決定手段212は、ユーザ登録単語の付加文字部を単語単位として認定するか判断する。その際、複数の共通文字部(付加文字部の組)が存在する。そこで、以下の順序で共通文字部を1つに定め、その上でユーザ登録単語の単語単位を定める。
まず、前記文字パターン照合手段211で得られた既知語をもとに、共通文字部を1つ求める。共通文字部を求めるために、共通文字部Sjに関する関数f(Sj)を用意する。
Figure 2010097239
数1は、共通文字部Sjに関する関数f(Sj)の値が最大となったSdを共通文字部として選ぶことを表す。関数f(Sj)としては、共通文字部Sjを含む単語wi(Sj)の種類数をN(Sj)とすると、
Figure 2010097239
と定義される。すなわち、共通文字部は接頭辞や接尾辞のように他の文字列と結合して単語を構成しやすく、最も多くの単語で使われている部分文字列を共通文字部として抽出することを意味する。以上の処理により共通文字部が1つに求まる。
次に、単語単位を決定する。具体的な手順は以下のとおりである。まず、前記処理によって定まった共通文字部を含む単語を、前記文字パターン照合手段211の検索でヒットした既知語より取り出す。次に、前記処理で求められた共通文字部Sdを前記既知語wi(Sd)から、前記求められた共通文字部Sdを除いた部分文字列、すなわち付加文字列w’i(Sd)を抽出する。前記辞書を参照して、共通文字部にSdを持つ全ての付加文字列について、既知語か未知語かを検索し、その既知語および未知語の単語数を求める。既知語の数をCK、未知語の数をCUとすると、
Figure 2010097239
Figure 2010097239
と表すことができる。ここで、Wとは既知語集合を表す。
最後に、CKとCUの値を比較する。
Figure 2010097239
ここで、αは調整パラメータであり、定数であっても良いし、付加文字部もしくは共通文字部の文字長によって変化させても良い。CKが大きかった場合には、Sdを共通文字部に持つ単語の付加文字部は単独で単語にもなりやすい傾向にあることを意味する。逆にCUが大きかった場合には、単独では単語になりにくい傾向にあることを意味する。よって、数5において、CKが大きかった場合には、ユーザ登録単語の付加文字部をそれ単独で単語登録することとし、逆にCUが大きかった場合には、ユーザ登録単語の付加文字部を単独で単語登録しない。
前記処理において、CKが大きかった場合には、ユーザ登録単語の付加文字部を単語登録手段213に送る。なお、ユーザ登録単語そのものも単語登録するとして、前記付加文字部とあわせて単語登録手段213に送ってもよい。
なお、前記手続きでは、共通単語部の選定、単語単位の選定を2段階に分けて処理しているが、1段階で行ってもよい。
すなわち、前記文字パターン照合手段211にて、辞書を参照して、ユーザ登録単語の部分文字列を含む単語を検索し、検索で得られた既知語を単語単位決定手段212に送る。単語単位決定手段212では、前記文字パターン照合手段211で得られた共通文字部から最適な1つの共通文字部を定めるのではなく、得られた全ての共通文字部の中から次式(数6)を満たす共通文字部を選択する。ここで選択される共通文字部は複数であってもよい。
Figure 2010097239
上記式(数6)の左辺は数3と、右辺は数4と類似している。また、数6は数5に類似している。前述の方式では、数3、4、5を用いて共通文字部が一つに定まったSdであるのに対して、本方式は、数6を用いて文字パターン照合手段211で得られたある1つの共通文字部Sjである点が異なる。
上記数6と、以下の選択基準を満たしたユーザ登録単語の付加文字部を単語登録手段213に送る。数6の左辺、右辺のΣの項をそれぞれCKj、CUjとすると、
・上記数2(=f(Sj))の値が最大となる共通文字部Sjを持つユーザ登録単語の付加文字部
・CKj、およびCKj + CUjがそれぞれ所定値以上であって、CKjが最大となる共通文字部Sjを持つユーザ登録単語の付加文字部
・CKj、およびCKj + CUjがそれぞれ所定値以上であって、CKj /CUjが最大となる共通文字部Sjを持つユーザ登録単語の付加文字部
このように、数6および上記条件を用いる1段階で求める方式を用いれば、数1〜5を用いて説明したf(Sj)が最大である共通文字部を選択する2段階で求める方式とは異なり、f(Sj)が最大でない共通文字部も選択することが可能である。
すなわち、数6に示すように、ある共通文字部Sjを有する全ての付加文字列について、既知語の数と未知語の数を求め、不等号が満たされた場合に付加文字部を単語単位として登録する。
さらに、前記辞書に登録されている単語に属性が付与されている場合には、属性情報を用いることも可能である。すなわち、数5もしくは数6によって、共通文字部および付加文字部の単語単位が定められて、かつユーザ登録単語の付加文字部の単語単位が既知語であった(付加文字部が単語単位として選択された)場合に、共通文字部Sdを含む既知語wi(Sd)の付加文字部w’i(Sd)が属する属性E(w’i(Sd))が最大となる属性E(Sd)を、ユーザ登録単語の付加文字部に付与する。すなわち、前記属性を前記付加文字部とあわせて単語登録手段213に送る。
Figure 2010097239
例えば、ユーザ登録単語「レモンスカッシュ:Lemon-squash」の共通文字部が「スカッシュ:squash」であり、付加文字部「レモン:lemon」も単語として登録することになったものとする。さらに、共通文字部「スカッシュ:squash」を含む既知語の付加文字部「メロン:melon」、「グレープ:grape」が既知語であった時に、「メロン:melon」や「グレープ:grape」に”食べ物”という属性が与えられていたものとする。この時、共通文字部「スカッシュ:squash」から展開される単語の付加文字部のうち、前記付加文字部が既知語であった既知語の属性を求める。前記例では、「メロン:melon」や「グレープ:grape」の属性である“食べ物”となる。そして、前記付加文字部が既知語である全ての前記既知語の属性を抽出し、属性ごとにその数を求める。その結果、単語属性“食べ物”が最大数となった場合には、付加文字部「レモン:lemon」にも“食べ物”の属性を与える。
また、音声認識用辞書作成装置においては、音素の数が少ない単語を前記辞書に多く登録すると、音声認識した際に前記単語が多く湧き出してしまう弊害があるため、ユーザ登録単語そのものの音素数や、ユーザ登録単語の付加文字部の音素数が少ない時には、一連の辞書登録作業を行わないなどの制限を設けることも考えられる。
単語登録手段214は、前記単語単位決定手段213より送られてきた文字列を辞書記憶手段201に記憶された辞書に登録して、辞書を更新する。また、前記単語の属性も併せて付与されている場合には、単語の登録とあわせて、前記属性も与えてもよい。
また、ユーザ登録単語そのものが辞書に含まれていない場合には、前記手続きとは別に前記辞書に登録してもよい。
次に、図2のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。
まず、辞書作成装置は、単語が入力されると、文字パターン照合手段211を用いて、ユーザ登録単語の部分文字列と一致する既知語があるか辞書を参照する(ステップS401)。一致する既知語が存在しなかった場合には、後段の処理は行わず終了となる(ステップS402)。
次に、前記既知語が存在した場合には、辞書作成装置は、単語単位決定手段212を用いて、前記共通文字部を持つ既知語を抽出し、共通文字部ごとに前記既知語の単語数を求める(ステップS403)。ステップS403で求めた前記単語数が最大となる共通文字部を求め、共通文字部を1つに定める(ステップS404)。当該処理は、ユーザ登録単語の部分文字列として複数候補が存在するため、それを1つに絞るための処理である。
その後、辞書作成装置は、単語単位決定手段212を用いて、ステップS404にて選定された共通文字部を含む既知語を抽出し、さらにその付加文字部を抽出する(ステップS405)。前記付加文字部もまた既知語である可能性があるため、前記抽出された全付加文字部に対して、辞書を参照して、既知語であるか未知語であるかを求める(ステップS406)。
辞書作成装置は、単語登録手段213を用いて、未知語である付加文字部の方が多ければ、何も処理をせずに処理を終え、既知語のほうが多ければ、ユーザ登録単語の付加文字部を辞書に追加する(ステップS407)。
次に、本実施の形態の効果について説明する。
本実施の形態では、ユーザ登録単語の部分文字列と一致する既知語を辞書より抽出し、前記既知語の一致した部分文字列である共通文字部を除いた付加文字部の単語単位に基づいて、ユーザ登録単語の付加文字部の単語単位を決定する。
すなわち、辞書に含まれる他の単語の単語単位を参考にユーザ登録単語の単語単位を定めているため、たとえユーザ登録単語および部分文字列が未知語であったとしても、辞書にとって最適な文字単位でユーザ登録単語を登録することが可能である。
さらに、辞書に依存した単語単位であることは、すなわち、学習コーパスに依存した単語単位となっている。よって、学習コーパスの分野に適応した単語単位を設定可能となる。
これは、例えば、飲食関係コーパスから学習された辞書に、「レモンスカッシュ:Lemon-squash」という単語を入力したとすると、すでに似た「メロンスカッシュ:Melon-squash」「グレープスカッシュ:Grape-squash」といった同じ(もしくは類似した)属性の単語が辞書に登録されている可能性が高いためである。よって、同じ(もしくは類似した)属性の単語の共通文字部である「スカッシュ:squash」を除いた「メロン:melon」や「グレープ:grape」の単語単位と同じ単位で、ユーザ登録単語の付加文字部にも与えることが可能となる。つまり、学習コーパス、すなわちコーパスの分野に依存した単語単位を定めることができる。
また、「レモンスカッシュ:Lemon-squash」の部分文字列の「レモ:lem」のように共通文字部の文字数が少ない場合に、たまたま単語が部分一致し、かつ頻度が多いために共通文字部に選択されることが考えられる。しかし、このような場合でも、単語の属性情報を用いれば、偶然部分文字列が一致した既知語「レモ:LEM」の付加文字部の属性が共通に表れにくいため、前記共通文字部が選択されることがなくなる。すなわち、文字数が少ない共通文字部が不用意に選択されることを防ぐことができる。英語表記を用いて説明すれば、”食べ物”の属性である「melon」「grape」と”宇宙科学”の属性である「lem(lunar excursion module)」とが異なることを利用して、不要な共通文字部の選択を低くできる。前記効果は、共通文字部およびユーザ登録単語の付加文字部を同時に求める場合に、より有効に働く。
さらに、本実施の形態において、単語属性が付与された辞書を用いた場合には、ユーザ登録単語の付加文字部を単語登録する際に、単語属性もあわせて付与可能な構成となっている。このため、単語の属性を用いた辞書および言語モデルを持つシステムが構成されているときには、単語属性をクラスとみなして、前記付加文字部に対して単語の出現確率を与えることができる。
次に、第2の実施の形態について図面を参照して詳細に説明する。なお、第1の実施の形態と同様な構成や動作は、説明を省略する。
図3は、第2の実施の形態の構成を示すブロック図である。図3を参照すると、第2の実施の形態の辞書作成装置は、辞書記憶手段301と、言語モデル記憶手段302と、文字パターン照合手段311と、単語単位決定手段312と、単語登録手段313とから構成されている。
辞書記憶手段301は、第1の実施の形態の辞書記憶手段201と同様の動作をする。
言語モデル記憶手段302は、言語モデルを記憶する。前記言語モデルを例示すれば、単語n個連鎖の組み合わせである単語n-gramを学習して、直前のn-1個の単語から次の単語を予測する統計モデルで実現されている。
文字パターン照合手段311は、第1の実施の形態の文字パターン照合手段211と同様の動作をする。
単語単位決定手段312は、前記文字パターン照合手段311の出力結果であるユーザ登録単語の部分文字列、共通文字部を含む既知語を入力として、辞書および言語モデルを参照し、ユーザ登録単語から最適な単語単位を見つけ、その結果を単語登録手段313に送る。
具体的には、第1の実施の形態の単語単位決定手段212の動作とほぼ同じであるが、共通文字部を選定してユーザ登録単語の付加文字部の単語単位を決定する場合に、前記言語モデル記憶手段302に記憶された言語モデルを利用する点が異なる。まず、共通文字部を選定する場合には、第1の実施の形態にて、共通文字部を求める際に用いた関数f(Sj)に代入される値が異なる。共通文字部Sjを含む単語wi(Sj)の単語出現頻度をn(wi(Sj))とすると、
Figure 2010097239
としてf(Sj)を求める。ここで、単語の出現頻度は、前記言語モデルを参照することで、当該値を求めることができる。
次に、単語単位を決定する際に、第1の実施の形態では、前記処理で選定された共通文字部を含む既知語の付加文字部が既知語であるか、未知語であるかを、単語ごとに辞書を参照して求め、その各々の単語数を求めて、ユーザ登録単語の付加文字部を単語として登録するか否かを判定していた。これに対して、第2の実施の形態では、単語の出現頻度を用いる。すなわち、数3、数4に相当する既知語、未知語の数は以下のようになる。
Figure 2010097239
Figure 2010097239
数9では、共通文字部Sdを含む既知語の付加文字部w’i(Sd)の単語出現頻度の総和を求めている。一方、式10では前記付加文字部w’i(Sd)が単独で既知語ではない場合に、w’i(Sd)を共通文字部に持つ既知語の出現頻度の総和を求めている。そして、数8、数10で求めた値を比較して(数5)、単語単位を決定する。また、数6についても、
Figure 2010097239
と置き換えて、一度に共通文字部、ユーザ登録単語の付加文字部の単語単位を求めることができる。
上記に述べた処理以外は、第1の実施の形態と同様である。
単語登録手段313は、第1の実施の形態の単語登録手段213と同様の動作をする。
次に、図4のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。
まず、辞書作成装置は、単語が入力されると、文字パターン照合手段311を用いて、ユーザ登録単語の部分文字列と一致する既知語を検索する(ステップS501)。一致する既知語が存在しなかった場合には、後段の処理は行わず終了となる(ステップS502)。ここで、前記一致する部分文字列が共通文字部である。
次に、前記共通文字部を含む既知語が存在した時には、辞書作成装置は、単語単位決定手段312を用いて、ユーザ登録単語の部分文字列と一致する共通文字部を持つ既知語の出現頻度を求める(ステップS503)。前記算出の出現頻度を共通文字部ごとに総和を求め、前記合計値が最大となった共通文字部を選択する(ステップS504)。その後、前記共通文字部を含む既知語を取り出し(ステップS505)、前記既知語の付加文字列が単独で単語として存在する時の単語出現頻度と、単語の一部として存在する時の単語出現頻度を比較して、ユーザ登録単語の付加文字部の単語単位を決定する(ステップS506)。
辞書作成装置は、単語登録手段313を用いて、前記結果に従って単語を登録する(ステップS507)。
このように本実施の形態の辞書作成装置は、単語の出現頻度に基づいて共通文字部および付加文字部の単語単位を選定する。このため、コーパスに依存した単語単位で、かつ単語の出現分布に応じて単語を登録できる。また、共通文字部を含む単語数が多くても、実際に出現することは少ない共通文字部を選択しなくできる。例えば、文字長が短いために多くの既知語の部分文字列に含まれてしまう共通文字部が選択されるのを防ぐことができる。
尚、本発明における辞書作成装置は、ソフトウェアによって各種手段を実現する情報処理装置(コンピュータ)で実現可能である。具体的には、辞書作成装置の有する制御部やROM、RAM等の記憶部、各種入力部、出力部、ネットワークインタフェース部等を用い、記憶部に展開されて用いられる辞書作成プログラムに基づいて、文字パターン照合手段、単語単位決定手段、単語登録手段等を実現する。
即ち、辞書作成プログラムは、制御部を、文字パターン照合手段、単語単位決定手段、単語登録手段として機能させる。また、各種手段に用いられる各種情報(辞書、コーパス等)も、記憶部に記憶されて、制御部の演算処理に用いられる。尚、辞書作成プログラムや各種情報は、補助記憶装置や記憶媒体、ネットワークサーバに記憶されて情報処理装置に用いられ、辞書作成装置を実現しても良い。
尚、各種手段はハードウェアを用いて実現しても良く、辞書作成プログラムによって実現される一部又は全部の機能をハードウェアに置換した場合には、処理能力の向上を望める。
以上説明したように本発明によれば、ユーザ登録単語に既知語が含まれていない場合に、辞書にとって最適な単語単位を求め、前記単位で単語を辞書に登録することができる辞書作成装置、辞書作成方法、および辞書作成プログラムを提供できる。
即ち、本発明によれば、ユーザ登録単語の部分文字列を単語として登録できる。また、辞書を参照してユーザ登録単語と部分一致する単語を見つけ、前記単語から部分一致した文字列を除いた文字列もまた辞書に含まれている語であった場合に前記ユーザ登録単語の部分文字列も辞書に登録するので、他の単語の単位を参考にした辞書における最適な単語単位で辞書登録可能である。これにより、ユーザ登録単語そのものだけでなく、ユーザ登録単語に含まれる部分文字列も正しく出力可能となる。
また、本発明の具体的な構成は前述の実施の形態に限られるものではなく、この発明の要旨を逸脱しない範囲の変更があってもこの発明に含まれる。
本発明によれば、ユーザが認識したいキーワードを新たに追加するユーザ登録単語装置、ユーザ登録単語装置をコンピュータに実現するためのプログラム、ユーザ登録単語機能を備えた音声認識装置や前記音声認識装置をコンピュータに実現するためのプログラムといった用途に適用できる。
第1の実施の形態の構成を示すブロック図である。 第1の実施の形態の動作を示すフローチャートである。 第2の実施の形態の構成を示すブロック図である。 第2の実施の形態の動作を示すフローチャートである。 特許文献1に記載の装置の構成を示す図である。
符号の説明
201 辞書記憶手段
211 文字パターン照合手段
212 単語単位決定手段
213 単語登録手段
301 辞書記憶手段
302 言語モデル記憶手段
311 文字パターン照合手段
312 単語単位決定手段
313 単語登録手段

Claims (15)

  1. 辞書データを参照して、ユーザ登録単語の部分文字列を含む既知語を求める文字パターン照合手段と、
    前記辞書データに、前記既知語から前記ユーザ登録単語と部分一致した文字列である共通文字部を除いた付加文字部が登録されているかによって、前記付加文字部の単語登録の要否を判定する単語単位決定手段と
    を備えることを特徴とする辞書作成装置。
  2. 前記単語単位決定手段は、
    前記辞書データに登録されている前記既知語の付加文字部の数によって、前記ユーザ登録単語の付加文字部の単語登録の要否を判定する
    ことを特徴とする請求項1記載の辞書作成装置。
  3. 前記単語単位決定手段は、
    言語モデルを入力し、
    前記辞書データに登録されている前記既知語の付加文字部の出現頻度によって、前記ユーザ登録単語の付加文字部の単語登録の要否を判定する
    ことを特徴とする請求項1又は2記載の辞書作成装置。
  4. 前記辞書データは単語属性情報を有し、
    前記単語単位決定手段は、
    前記既知語の付加文字部の前記単語属性情報によって、前記ユーザ登録単語の付加文字部の単語登録の要否を判定する
    ことを特徴とする請求項1ないし3の何れか一記載の辞書作成装置。
  5. 前記単語単位決定手段は、
    単語に、前記既知語の付加文字部の前記単語属性情報と同一の属性情報を付する
    ことを特徴とする請求項4記載の辞書作成装置。
  6. 辞書データを参照して、ユーザ登録単語の部分文字列を含む既知語を求め、
    前記辞書データに前記既知語から前記ユーザ登録単語と部分一致した文字列である共通文字部を除いた付加文字部が登録されているかによって、前記付加文字部の単語登録の要否を判定し、
    前記付加文字部を登録する場合には、前記付加文字部を単語単位として設定し、
    前記付加文字部を辞書データに登録する
    ことを特徴とする辞書作成方法。
  7. 前記辞書データに登録されている前記既知語の付加文字部の数によって、前記ユーザ登録単語の付加文字部の単語登録の要否を判定する
    ことを特徴とする請求項6記載の辞書作成方法。
  8. 言語モデルを参照し、
    前記辞書データに登録されている前記既知語の付加文字部の出現頻度によって、前記ユーザ登録単語の付加文字部の単語登録の要否を判定する
    ことを特徴とする請求項6又は7記載の辞書作成方法。
  9. 前記辞書データが単語属性情報を有する場合には、前記既知語の付加文字部の前記単語属性情報によって、前記ユーザ登録単語の付加文字部の単語登録の要否を判定する
    ことを特徴とする請求項6ないし8の何れか一記載の辞書作成方法。
  10. 単語に、前記既知語の付加文字部の前記単語属性情報と同一の属性情報を付して登録する
    ことを特徴とする請求項9記載の辞書作成方法。
  11. 情報処理装置の制御部を
    辞書データを参照して、ユーザ登録単語の部分文字列を含む既知語を求める文字パターン照合手段と、
    前記辞書データに、前記既知語から前記ユーザ登録単語と部分一致した文字列である共通文字部を除いた付加文字部が登録されているかによって、前記付加文字部の単語登録の要否を判定する単語単位決定手段と
    して機能させることを特徴とする辞書作成プログラム。
  12. 前記単語単位決定手段は、
    前記辞書データに登録されている前記既知語の付加文字部の数によって、前記ユーザ登録単語の付加文字部の単語登録の要否を判定する
    ことを特徴とする請求項11記載の辞書作成プログラム。
  13. 前記単語単位決定手段は、
    言語モデルを参照し、
    前記辞書データに登録されている前記既知語の付加文字部の出現頻度によって、前記ユーザ登録単語の付加文字部の単語登録の要否を判定する
    ことを特徴とする請求項11又は12記載の辞書作成プログラム。
  14. 前記辞書データは単語属性情報を有し、
    前記単語単位決定手段は、
    前記既知語の付加文字部の前記単語属性情報によって、前記ユーザ登録単語の付加文字部の単語登録の要否を判定する
    ことを特徴とする請求項11ないし13の何れか一記載の辞書作成プログラム。
  15. 前記単語単位決定手段は、
    単語に、前記既知語の付加文字部の前記単語属性情報と同一の属性情報を付する
    ことを特徴とする請求項14記載の辞書作成プログラム。
JP2008264789A 2008-10-14 2008-10-14 辞書作成装置、辞書作成方法、および辞書作成プログラム Withdrawn JP2010097239A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008264789A JP2010097239A (ja) 2008-10-14 2008-10-14 辞書作成装置、辞書作成方法、および辞書作成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008264789A JP2010097239A (ja) 2008-10-14 2008-10-14 辞書作成装置、辞書作成方法、および辞書作成プログラム

Publications (1)

Publication Number Publication Date
JP2010097239A true JP2010097239A (ja) 2010-04-30

Family

ID=42258902

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008264789A Withdrawn JP2010097239A (ja) 2008-10-14 2008-10-14 辞書作成装置、辞書作成方法、および辞書作成プログラム

Country Status (1)

Country Link
JP (1) JP2010097239A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4772164B2 (ja) * 2009-01-30 2011-09-14 三菱電機株式会社 音声認識装置
JP2012078449A (ja) * 2010-09-30 2012-04-19 Kddi Corp 音声認識装置およびその制御プログラム
JP2015138273A (ja) * 2014-01-20 2015-07-30 富士通株式会社 読み推定装置、読み推定方法及び読み推定用コンピュータプログラム
JP2019015838A (ja) * 2017-07-06 2019-01-31 クラリオン株式会社 音声認識システム、端末装置、及び辞書管理方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4772164B2 (ja) * 2009-01-30 2011-09-14 三菱電機株式会社 音声認識装置
US8200478B2 (en) 2009-01-30 2012-06-12 Mitsubishi Electric Corporation Voice recognition device which recognizes contents of speech
JP2012078449A (ja) * 2010-09-30 2012-04-19 Kddi Corp 音声認識装置およびその制御プログラム
JP2015138273A (ja) * 2014-01-20 2015-07-30 富士通株式会社 読み推定装置、読み推定方法及び読み推定用コンピュータプログラム
JP2019015838A (ja) * 2017-07-06 2019-01-31 クラリオン株式会社 音声認識システム、端末装置、及び辞書管理方法

Similar Documents

Publication Publication Date Title
KR102268875B1 (ko) 전자 장치에 텍스트를 입력하는 시스템 및 방법
US8892420B2 (en) Text segmentation with multiple granularity levels
JP5362095B2 (ja) インプットメソッドエディタ
JP5257071B2 (ja) 類似度計算装置及び情報検索装置
US6876963B1 (en) Machine translation method and apparatus capable of automatically switching dictionaries
KR20120129906A (ko) 합성어 분할
US20120284308A1 (en) Statistical spell checker
JP2010531492A (ja) ワード確率決定
JP5426710B2 (ja) 検索支援装置、検索支援方法およびプログラム
CN108363688B (zh) 一种融合先验信息的命名实体链接方法
JP2020087353A (ja) 要約文生成方法、要約文生成プログラム及び要約文生成装置
US20080091660A1 (en) System and method for searching information using synonyms
KR101841824B1 (ko) 텍스트 분할 프로그램, 텍스트 분할 장치, 및 텍스트 분할 방법
US20130041890A1 (en) Method for displaying candidate in character input, character inputting program, and character input apparatus
JP2010097239A (ja) 辞書作成装置、辞書作成方法、および辞書作成プログラム
US8782067B2 (en) Searching method, searching device and recording medium recording a computer program
US20110106849A1 (en) New case generation device, new case generation method, and new case generation program
JPH10162008A (ja) 情報検索方法及び装置
JP2004046438A (ja) テキスト検索方法及び装置及びテキスト検索プログラム及びテキスト検索プログラムを格納した記憶媒体
KR102117281B1 (ko) 빈도 테이블을 이용한 챗봇 발언 생성 방법
JP2018101224A (ja) 検索装置、検索方法、及びプログラム
JP4845921B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JP2009181183A (ja) 人名表現同定装置、その方法、プログラム及び記録媒体
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP2006209399A (ja) 文書検索装置および方法

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20120110