JP2006221532A - 異表記展開方法、辞書登録方法および言語解析方法ならびにプログラム - Google Patents

異表記展開方法、辞書登録方法および言語解析方法ならびにプログラム Download PDF

Info

Publication number
JP2006221532A
JP2006221532A JP2005036243A JP2005036243A JP2006221532A JP 2006221532 A JP2006221532 A JP 2006221532A JP 2005036243 A JP2005036243 A JP 2005036243A JP 2005036243 A JP2005036243 A JP 2005036243A JP 2006221532 A JP2006221532 A JP 2006221532A
Authority
JP
Japan
Prior art keywords
notation
variation
information
dictionary
acceptance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005036243A
Other languages
English (en)
Other versions
JP4760043B2 (ja
Inventor
Kunihiko Sadamasa
邦彦 定政
Shinichi Doi
伸一 土井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2005036243A priority Critical patent/JP4760043B2/ja
Publication of JP2006221532A publication Critical patent/JP2006221532A/ja
Application granted granted Critical
Publication of JP4760043B2 publication Critical patent/JP4760043B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

【課題】 1つの表記についての表記バリエーションを生成する際、不適切な表記バリエーションの生成を抑制した異表記展開方法を提供する。
【解決手段】 漢字とその読みを含む言語情報、および表記から表記バリエーションを生成するための基準ルールの情報を記憶部に予め格納するステップと、外部から表記とその読みが入力されると、基準ルールに基づいて表記の表記バリエーションを生成するステップと、生成した表記バリエーションを採用するか否かの判定のための情報となる採否判定用情報を表記バリエーションに付与するステップとを有する。
【選択図】 図1

Description

本発明は、日本語の表記に対してそのバリエーションを生成するための異表記展開方法、辞書登録方法および言語解析方法と、その方法をコンピュータに実行させるためのプログラムとに関する。
日本語には、一つの言葉について、漢字表記、漢字かな混じり表記、ひらがな表記等の様々な表記の変形が存在する。以下では、元の表記に対して変形した表記(異表記)を表記バリエーションと称する。例えば、「夕焼」という語には、一般的によく用いられる表記バリエーションとして「夕焼」、「夕焼け」、「夕やけ」、「ゆうやけ」の4種類が挙げられる。多くの日本語処理システムでは多様な表記バリエーションに対処する一つの方法として、事前に表記バリエーションを可能な限り多数準備しておくようにしている。しかし、表記バリエーションの漏れがないように辞書登録をすることは、辞書登録作業者の多大な労力が必要であった。
特許文献1で提案されている仮名漢字変換器では、辞書中に単語と単語内の各漢字に対する読み情報を合せて保持し、単語内の漢字のうちひらがな書きしたい箇所を人手で指示するという方法を取ることで、辞書作成の労力を低減している。例えば、「憂鬱」という語に対して「憂」は「ユウ」、「鬱」は「ウツ」という読みを持つことを情報として与えておき、さらに「鬱」の字はひらがなでも書かれうることを事前に辞書中に記録しておくか、又は仮名漢字変換実行時に人手で「鬱」の字をひらがな書きすると指示することで、「憂鬱」に対する「憂うつ」という表記バリエーションに対処している。しかしながら、この方法は表記バリエーションの作成が系統的に行えるが、表記バリエーションの指定に結局人手の作業が必要であった。
そこで従来、人手を介さず特定のルールに基づいて機械的に表記バリエーションを作成する方法が提案されている。特許文献2(以下では、従来方法1と称する)で提案されている検索装置では、単語中の連用形名詞を認定し、その送り仮名を追加・削除することで自動的に表記バリエーションを作成している。例えば「組合せ」という語に対しては、「組」の部分が動詞「組む」の連用形名詞、「合せ」の部分が動詞「合せる」の連用形名詞であることから、「組」「合せ」それぞれの連用語尾を追加・削除することで「組み合わせ、組合わせ、組み合せ」といった表記バリエーションを作成している。
また、特許文献3の検索装置や特許文献4の機械翻訳装置(以下では、従来方法2と称する)では単語に与えられた読みを使って単語全体をひらがな化することで自動的にその単語の表記バリエーションを作成する方法が提案されている。例えば、「野苺」という語に対して与えられた「のいちご」という読みを用いて「野苺」の表記バリエーションとして「のいちご」を作成する。
特開平8−212210号公報 特開平5−324729号公報 特開平7−121547号公報 特開平9−190440号公報
しかしながら、従来方法のように単純に表記バリエーションの作成を行うことには幾つかの問題がある。
まず従来方法では、存在し得ない表記を生成する可能性があった(以下では、課題1と称する)。従来方法1では、表記バリエーションを作成する元となる単語の読み情報が考慮されておらず、例えば、「夕焼」という語の表記バリエーションを作成することを考えると、「焼」の部分が動詞「焼く」の連用形にも動詞「焼ける」の連用形にも合致し得るため、正しい「夕焼け」という表記以外に「夕焼き」といった存在し得ない表記バリエーションを作成する可能性があった。
また、日本語の表記には、表記としては存在して実際に用いられ得るが、用いられる用途によってはその表記を利用することで却って悪影響を与える可能性のある表記が存在する。例えば、助詞相当の文字を先頭や末尾に含む表記は、検索用途では不要な表記となるゴミを拾う原因になりやすいし、日本語解析においては助詞周りでの誤解析に繋がりやすい。このような悪影響を与える可能性のある表記を、従来方法ではその他の一般の表記と区別をしていないか、区別が十分ではなかった(以下では、課題2と称する)。その具体例を以下に説明する。
従来方法2の検索装置においては、助詞相当の文字を先頭や末尾に含む表記とその他の一般表記との区別がなく、例えば「野苺」というクエリーに対して読み情報を用いて「のいちご」というクエリー拡張を行うと、「机の上のいちご」や「贈り物のいちご」など、「野苺」とは関連性の低い検索結果が得られてしまう可能性があった。従来方法2の機械翻訳装置においては、助詞相当の文字を先頭や末尾に含む表記と他の一般表記と区別しないか、解析結果に未登録語が含まれる時のみ表記バリエーションを用いると提案されているが、これでは区別が十分ではない。例えば、表記「野苺」から表記「のいちご」という表記バリエーションを作成することを考えると、表記バリエーション生成で得られた語をその他の一般の語と区別しない場合は「昨日のいちごを食べますか」という入力文に対して、正しい解析が「昨日/の/いちご/を/食べ/ます/か」となる所で、誤って「昨日/のいちご/を/食べ/ます/か」と解析を行う可能性がある。
一方で解析結果に未登録語が含まれる場合のみ表記バリエーションを用いると、「私がのいちごを食べる」という入力に対して「私/が/の/いちご/を/食べる」と一般の語のみで解析ができてしまうため表記「のいちご」が用いられず、正しく「私/が/のいちご/を/食べる」と解析できない可能性があった。
さらに、近年のインターネットの普及で多様な電子文書が氾濫するようになったことで、「近い」に対する「近かい」、「走る」に対する「走しる」など、本来は送り仮名誤りである表記も相当数見かけるようになった。これら送り仮名誤りの表記も正しい表記と同様に解析を行いたいとの要望が高まっているが、従来の日本語処理システムでは、これらの表記のように辞書に存在しない送り仮名誤りへの対処は考慮されていなかった(以下では、課題3と称する)。送り仮名誤りは滅多に使われない表記なので、その他の一般の表記と区別無しに用いると、却って悪影響を与える可能性が高い。
本発明は上述したような従来の技術が有する問題点を解決するためになされたものであり、1つの表記についての表記バリエーションを生成する際、不適切な表記バリエーションの生成を抑制した異表記展開方法、辞書登録方法および言語解析方法と、その方法をコンピュータに実行させるためのプログラムとを提供することを目的とする。
上記目的を達成するための本発明の異表記展開方法は、文字列からなる表記についての異なる表記である表記バリエーションを生成するための、コンピュータによる異表記展開方法であって、
制御部が漢字とその読みを含む言語情報、および前記表記から前記表記バリエーションを生成するための基準ルールの情報を記憶部に予め格納するステップと、
前記制御部は、外部から前記表記とその読みが入力されると、前記基準ルールに基づいて該表記の表記バリエーションを生成するステップと、
生成した表記バリエーションを採用するか否かの判定のための情報となる採否判定用情報を該表記バリエーションに付与するステップと、
を有するものである。
本発明では、入力される表記だけでなく読みも用いて表記バリエーションが生成され、生成された表記バリエーション毎に採否判定用情報を付与している。そのため、採否判定用情報を調べることでその表記バリエーションの利用可能性を判断することが可能となる。
一方、上記目的を達成するための本発明の辞書登録方法は、文字列からなる表記についての異なる表記である表記バリエーションを辞書に登録するための、コンピュータによる辞書登録方法であって、
制御部は、見出しと該見出しの読みと該見出しの辞書登録情報が入力されると、該見出しおよび該見出しの読みとともに該辞書登録情報を前記記憶部の前記辞書に登録するステップと、
入力された見出しを前記表記として上記本発明の異表記展開方法により前記表記バリエーションを生成するステップと、
採用対象の表記バリエーションを元の見出しと該見出しの読みと該見出しの辞書登録情報とともに前記辞書に登録するステップと、
を有するものである。
また、上記目的を達成するための本発明の言語解析方法は、言語による表現について品詞に解析する方法であって、
制御部は、文字列からなる表記、その読みおよび品詞を含む情報が登録された解析用辞書と該表記についての異なる表記である表記バリエーションを見出しとして登録するための追加解析用辞書を予め記憶部に格納するステップと、
前記表記について上記本発明の異表記展開方法により前記表記バリエーションを生成するステップと、
前記表記バリエーションを前記追加解析用辞書に登録するステップと、
前記表現が入力されると、前記解析用辞書および前記追加解析用辞書の少なくともいずれか一方を用いて該表現を単語に分解して各単語に品詞を付与する形態素解析を行うステップと、
前記形態素解析の結果を出力部に出力させるステップと、
を有するものである。
また、上記目的を達成するための本発明のプログラムは、文字列からなる表記についての異なる表記である表記バリエーションを生成する処理をコンピュータに実行させるプログラムであって、
漢字とその読みを含む言語情報、および前記表記から前記表記バリエーションを生成するための基準ルールの情報を記憶部に予め格納するステップと、
外部から前記表記とその読みが入力されると、前記基準ルールに基づいて該表記の表記バリエーションを生成するステップと、
生成した表記バリエーションを採用するか否かの判定のための情報となる採否判定用情報を該表記バリエーションに付与するステップと、
を有する処理を前記コンピュータに実行させるものである。
また、上記目的を達成するための本発明のプログラムは、文字列からなる表記についての異なる表記である表記バリエーションを辞書に登録する処理をコンピュータに実行させるためのプログラムであって、
見出しと該見出しの読みと該見出しの辞書登録情報が入力されると、該見出しおよび該見出しの読みとともに該辞書登録情報を前記記憶部の前記辞書に登録するステップと、
入力された見出しを前記表記として上記本発明のプログラムにより前記表記バリエーションを生成するステップと、
採用対象の表記バリエーションを元の見出しと該見出しの読みと該見出しの辞書登録情報とともに前記辞書に登録するステップと、
を有する処理を前記コンピュータに実行させるものである。
さらに、上記目的を達成するための本発明のプログラムは、言語による表現について品詞に解析する処理をコンピュータに実行させるためのプログラムであって、
文字列からなる表記、その読みおよび品詞を含む情報が登録された解析用辞書と該表記についての異なる表記である表記バリエーションを見出しとして登録するための追加解析用辞書を予め記憶部に格納するステップと、
前記表記について上記本発明のプログラムにより前記表記バリエーションを生成するステップと、
前記表記バリエーションを前記追加解析用辞書に登録するステップと、
前記表現が入力されると、前記解析用辞書および前記追加解析用辞書の少なくともいずれか一方を用いて該表現を単語に分解して各単語に品詞を付与する形態素解析を行うステップと、
前記形態素解析の結果を出力部に出力させるステップと、
を有する処理を前記コンピュータに実行させるものである。
本発明では、生成される表記バリエーションについて採用度を求めるための判定方法を予め設定することで、採否判定用情報に採用度を示す情報が格納される。そのため、操作者は、表記バリエーションを採用するか否かを採否判定用情報で判断することが可能となる。
(実施形態1)
本発明の実施形態1は、入力される表記に対して表記バリエーションを生成する装置である異表記展開装置に関するものである。実施形態1の異表記展開装置について説明する。
図1は異表記展開装置の一構成例を示すブロック図である。
図1に示すように、異表記展開装置は、日本語の文字列からなる表記に対してその表記バリエーションを生成する装置であり、入力部11と、記憶部30と、出力部17と、制御部20とを有する構成である。
入力部11は、入力される元の表記である元表記とその読みを入力するためのものである。記憶部30は、言語情報記憶部12と、表記展開知識記憶部13と、採否判定用情報計算用知識記憶部(以下では、「採否判定記憶部」と称する)15とを有する。言語情報記憶部12は、漢字、その読み、および文書中における出現頻度示す頻度情報などの言語情報を保存する。表記展開知識記憶部13は、ある日本語の文字列から表記バリエーションを得るための基準となる基準ルールなどの知識情報を保存する。採否判定記憶部15は、表記バリエーションについて採否判定など採用度を求める基準となる判定方法を含む知識情報を保存する。
制御部20は、プログラムにしたがって所定の処理を実行する、図に示さないCPU(Central Processig Unit)と、プログラムを格納するためのプログラムメモリ(不図示)とを有する。プログラムメモリには、本実施形態の文書作成処理を行うための異表記展開用プログラム19が格納されている。制御部20において、CPUが異表記展開用プログラム19を実行することで行われる処理が3つの手段に分類される。その3つの手段とは、表記読み対応手段18と、表記展開手段14と、採否判定用情報計算手段16である。
表記読み対応手段18は、入力された元表記が複数の漢字を含む場合、言語情報記憶部12に格納された言語情報を用いて、漢字と読みとの対応を取る。表記展開手段14は、表記読み対応手段18で対応づけられた表記とその読みに対して、表記展開知識記憶部13に格納された基準ルールを用いて表記バリエーションを生成する。なお、表記展開手段14は、表記読み対応手段18から受け取る表記とその読み以外にも、元表記に関する追加情報が入力されると、追加情報を参照して表記バリエーションを生成してもよい。追加情報とは、例えば、元表記に含まれる単語の品詞である。
採否判定用情報計算手段16は、表記展開手段14から受け取る表記バリエーションに対し、採否判定記憶部15に格納された判定方法に基づいて採用度を示す採否判定用情報を付与する。その際、採否判定用情報計算手段16は、言語情報を参照して採用度を求めてもよい。ここでは、採否判定用情報は、対象となる表記バリエーションの利用可能性を示す情報である。採否判定用情報が「採用」であれば表記として利用可能であることを意味し、採否判定用情報が「不採用」であれば表記として利用可能性の著しく低いことを意味する。
出力部17は、採否判定用情報計算手段16から表記バリエーションを受け取ると、採否判定用情報とともに表記バリエーションを出力する。
次に、図1に示した異表記展開装置の動作手順について説明する。
図2は異表記展開装置の動作手順を示すフローチャートである。
入力部11に日本語の文字列からなる表記とその読みが入力されると(ステップ201)、表記読み対応手段18が言語情報記憶部12に格納された漢字とその読みの情報を用いて、入力された表記と読みの対応を取る(ステップ202)。続いて、表記展開手段14が、表記読み対応手段18から表記と読みの情報を受け取ると、言語情報記憶部12と、表記展開知識記憶部13に格納された基準ルールの知識情報を参照し、その表記と読みとの対応付けに基づいて表記バリエーションを生成する(ステップ203)。採否判定用情報計算手段16は、言語情報記憶部12と採否判定記憶部15を参照し、表記展開手段14から受け取る表記バリエーションに対して採否判定用情報を付与し、表記バリエーションを出力部17に送出する(ステップ204)。出力部17は、採否判定用情報計算手段16から受け取る表記バリエーションを出力する(ステップ205)。
本実施例の異表記展開装置の構成について説明する。
図2は言語情報記憶部12に格納された言語情報を示す表である。
図2に示すように、言語情報記憶部12には、漢字の読み方を表した単漢字表、および熟字訓と読みの対応を表した熟字訓表が格納されている。図2に示す表には、各漢字の音読み、訓読み、漢字の水準(常用漢字、第一水準、第二水準)が示されている。単漢字表としては、昭和56年内閣告示の常用漢字表等を利用する。
表記展開知識記憶部13には、図2に示した第二水準の漢字はひらがなで書くという基準ルールの知識情報が格納されている。以下では、表記バリエーションを生成することを異表記展開と称し、その基準ルールを異表記展開ルールと称する。
採否判定記憶部15には、日本語の表記として相応しくない表記が予めリストアップされた展開禁止語リストが保存され、得られた表記バリエーションに対して展開禁止語リストに含まれる表記は採用を抑制するという判定方法の知識情報が格納されている。
採否判定用情報計算手段16は、表記展開手段14から表記バリエーションを受け取ると、採否判定記憶部15中の展開禁止語リストを参照し、そのリスト中の表記と一致する表記バリエーションに対して不採用の採否判定用情報を付与して出力部17に送出する。
次に、本実施例の異表記展開装置の動作について説明する。なお、展開禁止語リストに、表記「団らん」が含まれているものとする。
図3は異表記展開装置の動作手順を示すフローチャートである。
入力部11を介して「表記:団欒、読み:だんらん」が入力されると(ステップ201)、表記読み対応手段18は、図2に示した単漢字表を参照し、漢字「団」が「ダン」を読みに持ち、漢字「欒」が「ラン」を読みに持つことを認識し、入力の表記と読みの対応が「団(だん)欒(らん)」になると判断する(ステップ202)。
表記展開手段14は、表記読み対応手段18から「表記:団欒、読み:だんらん」の情報を受け取ると、図2に示した表で「欒」の漢字水準は第二水準であることを認識し、第二水準の漢字はひらがなで書くという異表記展開ルールに基づいて、「団欒」の表記バリエーションとして「団らん」を得る(ステップ203)。また、その他の表記バリエーションとして、「だんらん」を得る。そして、表記バリエーション「団らん」と「だんらん」を採否判定用情報計算手段16に送出する。なお、図4に表記中の第二水準の漢字をひらがな化する際の表記バリエーションの例を示す。また、ここでは第二水準の漢字をひらがな化するという異表記展開ルールを用いたが、漢字をひらがな化する際のルールとして、常用漢字以外の漢字をひらがな化するということが表記展開知識記憶部13に格納されていてもよい。
続いて、採否判定用情報計算手段16は、表記展開手段14から受け取る表記バリエーション「団らん」および「だんらん」に対して、採否判定記憶部15の展開禁止語リスト中の表記と一致するか否かを判定する。表記バリエーションが展開禁止語リスト中に「団らん」があるため、表記バリエーション「団らん」に不採用の採否判定用情報を付与し、表記バリエーション「だんらん」に採用の採否判定用情報を付与し、これら2つの表記バリエーションを出力部17に送出する(ステップ204)。
出力部17は、採否判定用情報計算手段16から表記バリエーション「団らん」および「だんらん」を受け取ると、これらの表記バリエーションを出力する。
次に、表記バリエーションを生成する際のルールについて、他の場合について説明する。
図3に示したステップ203で表記バリエーションを生成する際に、表記展開知識記憶部13に格納された「表記中の第二水準の漢字をひらがな化することにより異表記を作成する」という異表記展開ルールを用いた。この異表記展開ルールを第1のルールとすると、第1のルール以外にも他の場合が考えられる。他のルールの場合として5種類の具体例と、各ルールにおける表記展開手段14の動作について、以下に説明する。
第2のルールは、入力された表記中の訓読みの漢字をひらがな化することにより異表記を作成するというものである。表記展開知識記憶部13には、訓読みの漢字はひらがなで書くという異表記展開ルールが格納されている。以下に、図3のフローチャートを参照しながら本ルールの場合における動作について説明する。
入力部11を介して「表記:取り扱う、読み:とりあつかう」が入力されると(ステップ201)、表記読み対応手段18は、単漢字表を参照し、漢字「取」が「と・る」(ここで「・る」は活用語尾)を読みに持ち、漢字「扱」が「あつか・う」(ここで「・う」は活用語尾)を読みに持つことを認識し、入力された表記と読みの対応は「取(と)り扱(あつか)う」になると判断する(ステップ202)。続いて、ステップ203で、表記展開手段14は、表記読み対応手段18から表記と読みの対応の情報を受け取り、単漢字表から漢字「取」の読み「と」は訓読みであることを認識すると、訓読みの漢字はひらがなで書くというルールに基づいて異表記展開を行い、表記「取り扱う」の表記バリエーション「とり扱う」を生成する。さらに、表記バリエーション「とり扱う」の漢字「扱」も訓読みで展開可能なので、全体として表記バリエーション「とり扱う」、「取りあつかう」および「とりあつかう」を生成する。
次に、直前の漢字の繰り返しを表す漢字「々」が表記に含まれる場合の動作について説明する。
入力部11を介して「表記:寒々、読み:さむざむ」が入力されると(ステップ201)、表記読み対応手段18は、単漢字表を参照し、漢字「寒」の読みが「さむ・い」であることを認識する。また、漢字「々」は直前の漢字の繰り返しを意味することから、ここでの表記「々」が「さむ」の読みを持つことを認識し、これを連濁させて「ざむ」になると判断する。このようにして、表記読み対応手段18は、表記と読みの対応を「寒(さむ)々(ざむ)」とする(ステップ202)。続いて、ステップ203で、表記展開手段14は、表記読み対応手段18から表記と読みの対応の情報を受け取り、表記「寒」の読み「さむ」は訓読みであり、同様に「々」の読み「ざむ」も訓読みであることを認識し、「寒々」の表記バリエーションとして「寒ざむ」および「さむざむ」を生成する。
第二水準の漢字や訓読みの漢字は、一般の人を対象にした文書中でひらがな表記されやすいため、上記第1のルールおよび第2のルールの少なくともいずれかにより、このような漢字を含む元表記に対して一般的な文書により近い表記バリエーションが生成される。
次に、第3のルールの場合について説明する。第1のルールおよび第2のルールは漢字全般に対して適用されるものであるが、第3のルールはその中でも和語動詞に適用されるものである。第3のルールは、入力された表記中に和語動詞を表す漢字が含まれる場合、その連用語尾に相当するひらがなを挿入した表記バリエーションを生成するものである。
表記展開知識記憶部13には、表記中に和語動詞を表す漢字が含まれていれば、その連用語尾に相当するひらがなを挿入した表記バリエーションを生成するという異表記展開ルールが格納されている。また、表記読み対応手段18は、表記と読みの対応を取る際に、和語動詞の連用形の読みも用いるものとする。以下に、図3のフローチャートを参照しながら本ルールの場合における動作について説明する。
入力部11を介して「表記:焼肉、読み:やきにく」が入力されると(ステップ201)、表記読み対応手段18は、単漢字表を参照し、漢字「焼」が「や・く/や・ける」という読みを持ち、漢字「肉」が「ニク」という読みを持つことを認識する。また、漢字「焼」にはこの漢字を用いた和語動詞「焼く(読みは「やく」)」があり、その連用形の「焼き(読みは「やき」)」の読みを持つことを認識する。なお、表記の漢字が和語動詞を持つか否かを判断する際、単漢字表の訓読みの項を参照してもよいし、予め格納された日本語辞書においてその漢字を語幹に持つ動詞があるか否かを検索するようにしてもよい。
続いて、表記読み対応手段18は、表記と読みの対応を取る際に和語動詞の連用形の読みを用いることで、表記と読みの対応を「焼(やき)肉(にく)」とする(ステップ202)。ステップ203で、表記展開手段14は、表記読み対応手段18から表記と読みの対応の情報を受け取り、漢字「焼」の部分は、上述のとおり和語動詞「焼く」の連用形を用いて対応を取っているため、「焼く」の連用語尾のひらがな「き」を表記に挿入して、「焼肉」の表記バリエーションとして「焼き肉」を生成する。
次に、第3のルールと同様に和語動詞に適用される第4のルールの場合について説明する。第4のルールは、第3のルールとは逆に、入力された表記中に和語動詞を表す漢字が含まれる場合、その連用語尾に相当するひらがなを表記から削除した表記バリエーションを生成するというものである。
表記展開知識記憶部13には、表記中に和語動詞を表す漢字が含まれていれば、その連用語尾に相当するひらがなを表記から削除した表記バリエーションを生成するという異表記展開ルールが格納されている。また、表記読み対応手段18は、表記と読みの対応を取る際に、和語動詞の連用形の読みも用いるものとする。以下に、図3のフローチャートを参照しながら本ルールの場合における動作について説明する。
入力部11を介して「表記:焼き肉、読み:やきにく」が入力されると(ステップ201)、表記読み対応手段18は、単漢字表および熟字訓表を参照し、漢字「焼」が「や・く」という読みを持ち、漢字「肉」が「ニク」という読みを持つことを認識し、表記と読みの対応を「焼(や)き肉(にく)」とする(ステップ202)。ステップ3で、表記展開手段14は、表記読み対応手段18から表記と読みの対応の「焼(や)き肉(にく)」を受け取り、第3のルールの場合で説明したのと同様に漢字「焼」にはこの漢字を用いた和語動詞「焼く(読みは「やく」)」があり、その連用形は「焼き(読みは「やき」)」になることを認識する。そして、表記中に和語動詞を持つ漢字「焼」が含まれ、直後にその和語動詞の連用語尾のひらがな「き」が含まれていることから、そのひらがな「き」を削除して、「焼き肉」の表示バリエーション「焼肉」を生成する。
次に、第3のルールおよび第4のルールと同様に和語動詞に適用される第5のルールの場合について説明する。第5のルールは、表記中に和語動詞を表す漢字が含まれる場合、その漢字に対応する読みの最後のひらがなをその漢字の直後に挿入した表記バリエーションを生成するというものである。
表記展開知識記憶部13には、表記中に和語動詞を表す漢字が含まれていれば、その漢字に対応する読みの最後のひらがなをその漢字の直後に挿入した表記バリエーションを生成するという異表記展開ルールが格納されている。また、表記展開手段14は、表記中に和語動詞を表す漢字が含まれていると、その漢字に対応する読みの最後のひらがなをその漢字の直後に挿入する。以下に、図3のフローチャートを参照しながら本ルールの場合における動作について説明する。
入力部11を介して「表記:表す、読み:あらわす」が入力されると(ステップ201)、表記読み対応手段18は、単漢字表を参照し、漢字「表」が「あらわ・す」という読みを持つことを認識し、表記と読みの対応を「表(あらわ)す」とする(ステップ202)。続いて、ステップ203で、表記展開手段14は、表記読み対応手段18から表記と読みの対応の情報を受け取り、単漢字表から漢字「表」にはこの漢字を用いた和語動詞「表す」があることを認識すると、漢字「表」の読みに対応する「あらわ」の最後のひらがな「わ」を漢字「表」の直後に挿入して、「表す」の表記バリエーション「表わす」を生成する。
ここで、「夕焼」を「夕焼き」と表記バリエーションを生成してしまう従来の課題1について、その解決の具体例を説明する。
入力部11を介して「表記:夕焼、読み:ゆうやけ」が入力されると(ステップ201)、表記読み対応手段18は、単漢字表を参照し、表記と読みの対応を「夕(ゆう)焼(やけ)」とする(ステップ202)。続いて、ステップ203で、表記展開手段14は、表記読み対応手段18から表記と読みの対応の情報を受け取り、単漢字表から漢字「焼」は「焼く」ではなく「焼ける」の連用形であることを認識し、「夕焼き」ではなく「夕焼け」という正しい表記バリエーションを生成する。
元表記に和語動詞が含まれている場合、上記第3のルール、第4のルールおよび第5のルールの少なくともいずれかにより、和語動詞に対して的確な送り仮名が付与された表記バリエーションが生成される。
第1のルールから第5のルールの異表記展開ルールからいくつかを組み合わせて適応してもよい。例えば、入力部11を介して「表記:取り扱う、読み:とりあつかう」が入力された場合、第2のルールにより「取りあつかう」、「とり扱う」および「とりあつかう」の3種類の表記バリエーションが生成される。そして、得られた表記バリエーションも含めて第5のルールを適用すると、「取り扱かう」および「とり扱かう」の2種類の表記バリエーションが生成される。ここで生成された表記バリエーションも含めて第4のルールを適用すると、「取扱う」、「取あつかう」および「取扱かう」の3種類の表記バリエーションが生成される。「扱かう」という表記は正しくはないが、送り仮名を誤って記述した誤表記をもコンピュータに認識させたいときに役立てることができる。図5に第1のルールから第5のルールを組み合わせたときの表記展開例を示す。
なお、上記第1のルールから第5のルール以外に、表記に対して関連する追加情報、例えば、品詞が与えられた場合、それにより展開を行うかどうかの判断をするという第6のルールを用いてもよい。この場合の具体例として、名詞・動詞など自立語の類は展開を行うが、機能語についての展開を抑制するといったルールが考えられる。通常、自立語については異なる表記に展開できる可能性が高いが、機能語については他の表記に展開できる可能性が低いからである。
次に、表記バリエーションに採否判定用情報を付与する際の判定方法について、他の場合について説明する。
図3で説明したステップ204で表記バリエーションに付与する採否判定用情報の判定方法に、表記バリエーションが展開禁止語リストにあるか否かという基準を用いていた。この判定方法を第1の判定方法とすると、第1の判定方法では、次のようなメリットがある。上述の第1のルールから第6のルールのいずれを用いても一般的に使用されない表記バリエーションが生成されてしまう場合に、操作者がこのような表記バリエーションを展開禁止語リストに登録しておくことで、利用可能性の低い表記バリエーションが生成されるのを防げる。
一方、上記第1の判定方法以外にも他の場合が考えられる。他の判定方法として3種類の具体例と、各判定方法における採否判定用情報計算手段16の動作について、以下に説明する。
第2の判定方法は、得られた表記バリエーションの頻度情報に対応して採否判定用情報を付与するものである。言語情報記憶部13には、表記バリエーション毎に文書や文書集合中での出現頻度が予め格納されている。また、出現頻度の基準値と、出現頻度が基準値以上であるか否かで判定する判定方法とが採否判定記憶部15に格納されている。採否判定用情報計算手段16は、採否判定記憶部15に格納された判定方法を参照し、表記バリエーションの出現頻度をその基準値と比較する。出現頻度が基準値よりも小さければ、その表記バリエーションに不採用の採否判定用情報を付与して出力部17に送出する。また、出現頻度が基準値以上であれば、表記バリエーションに採用の採否判定用情報を付与して出力部17に送出する。以下に具体例を説明する。
入力部11を介して「表記:取り扱う、読み:とりあつかう」が入力され、上述したようにして表記バリエーションが生成されると、採否判定用情報計算手段16は、各表記バリエーションの出現頻度を言語情報記憶部13で調べる。表記バリエーションについて、ある文書集合中での出現頻度が以下のとおりであった。
取りあつかう:579、とり扱う:158、とりあつかう:1600、取り扱かう:35、
とり扱かう:0、取扱う:50600、取あつかう:3、取扱かう:4
ここで、出現頻度0以外であれば採用するという判定方法が採否判定記憶部15に格納されていれば、採否判定用情報計算手段16は、表記バリエーション「とり扱かう」に不採用の採否判定情報を付与し、他の表記バリエーションに採用の採否判定情報を付与する。また、出現頻度10以上であれば採用するという判定方法が採否判定記憶部15に格納されていれば、採否判定用情報計算手段16は、「とり扱かう」、「取あつかう」および「取扱かう」の3つの表記バリエーションに不採用の採否判定用情報を付与し、他の表記バリエーションに採用の採否判定用情報を付与する。第2の判定方法であれば、採否判定用情報が出現頻度になるため、表記バリエーションの採用度に対してより細かいランク付けが可能となる。
次に、第3の判定方法について説明する。第3の判定方法は、得られた表記バリエーションが日本語の誤った語切りを起こし易い表記であるか否かを判定し、その結果に対応した採否判定用情報を付与するものである。この第3の判定方法は、文を単語に分解して各単語に品詞を付与する形態素解析を用いるものである。以下に、問題点から解決手段という順で説明する。
入力部11を介して「表記:椰子、読み:やし」が入力され、「第二水準漢字のひらがな化」の第1の異表記展開ルールにより表記展開手段14が表記バリエーション「や子」を生成したとする。ここで「や子」という表記を例えば形態素解析用の辞書に登録してしまうと、形態素解析を行う際に以下のように解析誤りを引き起こす可能性がある。なお、形態素解析用辞書を予め言語情報記憶部12に格納しておくものとする。また、形態素解析の具体例については、例えば、特許第2821143号公報に開示されているため、ここではその詳細な説明を省略する。
形態素解析への入力文:孫や子を愛する
形態素解析結果:孫/や子/を/愛する
正解解析 :孫/や/子/を/愛する
解析誤りを起こした原因は、得られた表記バリエーションの先頭や末尾に、日本語解析で重要な役割を果たす機能語、特に「が、を、に、と」などの助詞類が含まれているからである。そこで、機能語が展開後の表記バリエーションの先頭や末尾に含まれる場合にはその表記バリエーションを採用しないようにしたい。このような表記バリエーションに不採用の情報を付与するために、文字列マッチの方法が考えられる。文字列マッチの方法とは、採否判定記憶部15に予め機能語のリストを保持しておき、単純に文字列マッチによって得られた表記の先頭や末尾に日本語の機能語相当の文字列が含まれていないかをチェックするものである。この文字列マッチを採否判定用情報計算手段16が行う。上記「や子」の例では、先頭の「や」が助詞なので、採否判定用情報計算手段16は「や子」に不採用の採否判定用情報を付与する。助詞の文字列としては、主に以下のようなものが挙げられる。
助詞:が、を、に、と、で、へ、か、から、まで、の
や、かつ、および、または
は、も、すら、さえ、でも、しか
上述の文字列マッチの方法は、単純な方法であり、表記バリエーションが過剰に抑制されてしまうという問題がある。そこで、形態素解析を用いた方法を行う。その方法を以下に説明する。
形態素解析用プログラムを言語情報記憶部12に予め格納しておくものとする。採否判定用情報計算手段16は、得られた表記の前後に名詞を付与し、形態素解析用プログラムを実行して名詞を付与した表記に対して形態素解析を行う。続いて、解析結果において得られた表記の先頭や末尾に当たる箇所に機能語相当の品詞が振られているか否かを調べ、振られている場合は不採用の採否判定用情報を付与する。
形態素解析を用いた方法についての具体例を説明する。入力部11を介して「表記:唐松、読み:からまつ」が入力されたとする。必ず名詞に解釈されるダミーエントリとして印「☆」を予め形態素解析用辞書に登録しておく。ここで、「動植物のひらがな化」のルールにより「唐松」の異表記として「からまつ」が得られた場合、「からまつ」の前後に「☆」を付与し「☆からまつ☆」の形にした上で、採否判定用情報計算手段16は言語情報記憶部13に格納された形態素解析用プログラムを実行して形態素解析を行う。形態素解析結果を以下に示す。
(☆:名詞)(から:助詞)(まつ:動詞)(☆:名詞)
形態素解析結果からわかるように、採否判定用情報計算手段16は、得られた表記「からまつ」の先頭にあたる「から」を助詞と解釈し、表記バリエーション「からまつ」に対して不採用の採否判定用情報を付与する。
ここで、単純な文字列マッチでは過剰にバリエーションが抑制され、問題となる具体例について説明する。入力部11を介して「表記:遣りたい放題、読み:やりたいほうだい」が入力されると、表記展開手段14が表記バリエーションの1つとして「やりたい放題」を作成する。単純な文字列マッチの方法を用いると、採否判定用情報計算手段16は展開後の表記の先頭を助詞の「や」と認識するため、表記バリエーション「やりたい放題」に不採用の採否判定用情報を付与する。
これに対して、形態素解析を用いた方法では、表記バリエーション「やりたい放題」に対して、採否判定用情報計算手段16は、「やり/たい/放題」と解析する。この形態素解析結果では先頭末尾が機能語とならないので、採否判定用情報計算手段16は、表記バリエーション「やりたい放題」に採用の採否判定用情報を付与する。図6に先頭末尾に機能語を含むため不採用の採否判定用情報が付与される表記バリエーションの具体例を示す。第3の判定方法では、表記バリエーションの先頭または末尾に機能語を含む場合にはその表記バリエーションを採用しないことで、日本語の誤った語切りを起こし易い表記について誤った表記バリエーションを採用することを抑制できる。なお、第3の判定方法において、採否判定用情報は、「不採用」の情報の代わりに「助詞の文字列を表層の先頭・末尾に含む」ことを示す情報であってもよい。
第4の判定方法は、得られた表記の種類と文字数に対応して採否判定用情報を付与する方法するものである。この第4の判定方法について説明する。例えば、文字数が3以下で全文字がひらがなの表記は、日本語の機能語を破壊する可能性が高い。また、文字数が2以下で全文字が全てカタカナの表記は、より長いカタカナ語を分解する可能性がある。長いカタカナ語を短いカタカナと平仮名に分解してしまうと、分解されたカタカナと平仮名が別々の単語として読み取られ、元のカタカナ語の意味とは異なるものになる可能性がある。そのため、これらの条件に該当する表記バリエーションに対して採否判定用情報計算手段16は不採用の採否判定用情報を付与する。ここでは、表記の文字数とは単語の文字数を示す。ここでは、表記の長さを示すものとして「表記の文字数」を用いたが、モーラ数や音節数を用いてもよい。なお、この第4の判定方法においての採否判定用情報は、「不採用」の情報の代わりに「文字数制約に該当する」ことを示す情報であってもよい。
なお、本実施形態における採否判定用情報は表記バリエーションの利用可能性を示すものとしてその表記バリエーションを採用するか否かという情報であったが、利用可能性を数値「0、1、2.5、・・・」でランク付けし、数値が大きいほど利用可能性が高いものとして、採否判定用情報が利用可能性のランクを示す数値であってもよい。また、採否判定用情報は、表記バリエーションが展開禁止語リストにあるか否かという情報であってもよい。また、利用可能性をローマ字「A、B、C、・・・」でランク付けし、順番が後のローマ字ほど利用可能性が低いものとして、採否判定用情報が利用可能性のランクを示すローマ字であってもよい。また、採否判定用情報は、文書中での出現頻度を示す情報であってもよい。また、採否判定用情報に、上述の複数の異表記展開ルールおよび判定方法のうちいずれを用いて生成されたものであるかを示す情報を含むようにしてもよい。以下では、利用可能性のランクが低い場合や出現頻度が小さい場合の情報を低スコアの情報と称する。
本実施形態の異表記展開装置は、上述したように、装置の操作者により入力された表記とその表記に対する読みの情報から、表記とその読みとの文字の対応を取り、その対応に基づいた適切な表記バリエーションを作成する。また、作成した表記バリエーションに対して各表記バリエーションの採否判定の基準となる情報を付与しておくことで、従来よりも安全に必要に応じて種々の表記バリエーションを利用することができる。
なお、ステップ203の表記バリエーションの生成やステップ204の採否判定用情報は、上記実施例以外のものであってもよい。
(実施形態2)
本発明の実施形態2は実施形態1と同様に異表記展開装置に関するものであるが、本実施形態の異表記展開装置は、実施形態1の異表記展開装置の表記読み対応手段を設けていない構成である。
本実施形態の異表記展開装置の構成について説明する。特にことわらない限り、採否判定用情報は「採用」および「不採用」のいずれかを示す情報であるものとする。
図7は異表記展開装置の一構成例を示すブロック図である。なお、実施形態1の異表記展開装置と同様の構成については同一の符号を付し、その詳細な説明を省略する。
図7に示すように、異表記展開装置は、入力部11と、記憶部30と、出力部17と、制御部22とを有する構成である。制御部22は、表記展開手段24と、採否判定用情報計算手段16とを有する。
表記展開手段24は、入力部11から入力された表記およびその読みと、所定の場合に言語情報記憶部12に格納された表記についての言語情報と、表記展開知識記憶部13に格納された基準ルールを含む知識情報を用いて入力部11より入力された文字列に対する表記バリエーションを生成する。
次に、図8のフローチャートを参照して本実施形態の動作について説明する。
入力部11に日本語の文字列からなる表記とその読みが入力されると(ステップ401)、表記展開手段24が言語情報記憶部12と表記展開知識記憶部13を参照し、入力部11で入力された表記と読み、言語情報記憶部12に格納された汎用の日本語の言語情報を用いて文字列の表記バリエーションを生成する(ステップ402)。続いて、採否判定用情報計算手段16は、表記展開手段24から表記バリエーションを受け取ると、言語情報記憶部12と採否判定記憶部15を参照し、各表記バリエーションに対して採否判定用情報を付与し、表記バリエーションを出力部17に送出する(ステップ403)。出力部17は、採否判定用情報計算手段16から受け取る表記バリエーションを出力する(ステップ404)。
本実施形態における異表記展開装置の実施例について説明する。
実施形態1の異表記展開装置は、入力手段11から入力された表記に複数の漢字が含まれる場合、漢字毎に読みとの対応を取ってから表記バリエーションを求めていた。各漢字と読みとの対応を取らなくても元表記の読みを用いて表記バリエーションを求める方法が幾つかあり、本実施例ではそれらのうち3つの方法について述べる。以下では、実施形態1と異なる表記展開知識記憶部13および表記展開手段24について詳細に説明する。
第1の方法は、従来方法2と同様に、表記を無条件でひらがな化するものである。
入力部11を介して「表記:誤魔化す、読み:ごまかす」が入力されると、表記展開手段24は、表記「誤魔化す」の読みをそのまま表記バリエーション「ごまかす」として生成する。ただし、入力される全ての表記に対してこの方法を単純に行うと、不自然にひらがなばかりで記述される表記バリエーションが生成されるため、この方法での表記バリエーションを利用した日本語解析では解析誤りが多くなることが予想される。そのため、実施例1と同様に採否判定用情報計算手段16は、実施例1で行ったように各表記バリエーションから信頼度の低いものを特定し、特定した表記バリエーションには不採用の採否判定用情報を付与する。これにより、ある程度妥当な表記バリエーションのみを利用することができる。
課題2の具体例として挙げた「野苺」の場合で説明する。ここでは、実施例1に挙げた第3の判定方法を採用する。第3の判定方法では、採否判定用情報計算手段16が表記の先頭や末尾に当たる箇所に機能語相当の品詞が振られているか否かを調べ、振られている場合は不採用の採否判定用情報を付与するものであった。
採否判定用情報計算手段16は、表記「野苺」から作成される「のいちご」という表記バリエーションに対しては、先頭に助詞「の」を含むため、「表記の先頭や末尾に当たる箇所に機能語相当の品詞が振られている」場合に相当するものと判定し、不採用の採否判定用情報を付与する。表記バリエーション「のいちご」に不採用の採否判定用情報を付与しておくことで、入力される「昨日のいちごを食べますか」の文に対して形態素解析を行った場合、2つの解析結果「昨日/の/いちご/を/食べ/ます/か」と「昨日/のいちご/を/食べ/ます/か」が得られる。このとき、表記バリエーション「のいちご」には不採用の採否判定用情報が付与されているため、単語「のいちご」を含まない前者の解析結果が採用される。この方法が課題2の解決方法の1つとなる。形態素解析の具体例は、実施形態1と同様に特許第2821143号公報に開示されているため、その詳細な説明を省略する。
次に、第2の方法について説明する。第2の方法は、入力された表記に関する品詞の情報が与えられている場合、ひらがな化を行う品詞を絞るものである。例えば、ひらがな化する品詞を和語動詞と形容詞のみとする。言語情報記憶部12には、単漢字や単語の読みの他に品詞の情報が格納されている。そして、採否判定記憶部15にはひらがな化を行う品詞を和語動詞と形容詞のみにするというルールが予め格納され、採否判定用情報計算手段16はそのルールを参照し、和語動詞と形容詞をひらがな化した表記バリエーションに採用の採否判定用情報を付与する。
次に、第3の方法について説明する。第3の方法は、入力された表記に関する意味情報が与えられている場合、与えられた意味情報に対応して異表記作成方法を決定するというものである。例えば、身体部位や動植物を表す語には、それをひらがな化とカタカナ化したものをそれぞれ表記バリエーションとして採用するものである。採否判定記憶部15には、身体部位や動植物を表す語をひらがな化やカタカナ化したものに採用の採否判定用情報を付与する旨のルールが予め格納されている。そして、採否判定用情報計算手段16は、表記バリエーションとともに意味情報を表記展開手段24から受け取ると、採否判定記憶部15に格納されたルールを参照し、意味情報が身体部位または動植物を表す語に相当するか否かを調べ、相当する場合にはひらがな化した表記バリエーションとカタカナ化した表記バリエーションに採用の採否判定用情報を付与する。以下に、具体例を説明する。
入力部11を介して「表記:頭、読み:あたま、意味情報:身体部位」が入力されると、表記展開手段24は、表記「頭」をひらがな化した「あたま」と、カタカナ化した「アタマ」を表記バリエーションとして生成する。続いて、採否判定用情報計算手段16は、表記展開手段24から表記バリエーションと意味情報を受け取ると、採否判定記憶部15に格納されたルールを参照し、受け取った表記バリエーションの意味情報が身体部位や動植物を表す語であるか否かを調べる。表記バリエーションが身体部位であることを認識すると、表記バリエーション「あたま」と「アタマ」のそれぞれに採用の採否判定用情報を付与する。なお、身体部位や動植物を表す語をひらがな化およびカタカナ化した具体例を図9の表に示す。
また、表記の意味情報を入力しなくても、表記の末尾が身体部位や動植物を表す語に対応する場合は、表記全体の意味分類も表記末尾の語と同様であると推測できるので、表記をひらがな化とカタカナ化したそれぞれの表記バリエーションを採用するようにしてもよい。これは、日本語においては表記の末尾の文字列が単語の主要な語となることが多いからである。採否判定記憶部15には、表記の末尾が身体部位や動植物を表す語に対応する場合、表記をひらがな化とカタカナ化したそれぞれの表記バリエーションに採用の採否判定用情報を付与する旨のルールが予め格納されている。採否判定用情報計算手段16は、表記バリエーションを表記展開手段24から受け取ると、採否判定記憶部15に格納されたルールを参照し、表記の末尾が身体部位や動植物を表す語に相当するか否かを調べ、相当する場合にはひらがな化した表記バリエーションとカタカナ化した表記バリエーションに採用の採否判定用情報を付与する。以下に、具体例を説明する。
入力部11を介して「表記:揚羽蝶、読み:あげはちょう」が入力されると、表記展開手段24は、表記「揚羽蝶」をひらがな化した「あげはちょう」と、カタカナ化した「アゲハチョウ」を表記バリエーションとして生成する。続いて、採否判定用情報計算手段16は、表記展開手段24から表記バリエーションを受け取ると、採否判定記憶部15に格納されたルールを参照し、受け取った表記バリエーションの末尾が身体部位や動植物を表す語に相当するか否かを調べる。そして、表記バリエーションの末尾が動植物を表す語に相当することを認識すると、表記バリエーション「あげはちょう」と「アゲハチョウ」のそれぞれに採用の採否判定用情報を付与する。
本実施形態の異表記展開装置は、上述したように、実施形態1の表記読み対応手段18による表記とその読みの対応の情報を用いなくても、得られた各表記バリエーションに対して採否判定の基準となる情報を付与しておくことで、従来よりも安全に必要に応じて種々の表記バリエーションを利用することができる。
(実施形態3)
本発明の実施形態3は、形態素解析用の辞書などの日本語辞書に単語を登録するための装置である辞書登録装置に関するものである。実施形態3の辞書登録装置の構成について説明する。
図10は本実施形態の辞書登録装置の一構成例を示すブロック図である。なお、実施形態1および実施形態2で説明した構成と同様の構成については同一の符号を付し、その詳細な説明を省略する。また、形態素解析の具体例は特許第2821143号に開示されているため、その詳細な説明を省略する。
図10に示すように、辞書登録装置は、制御部26と、記憶部32と、入力部11と、出力部17とを有する構成である。記憶部32には、表記展開知識記憶部13と、言語情報記憶部12と、採否判定記憶部15と、日本語の辞書見出しと辞書見出しの読みと辞書見出しについての内容を含む辞書登録情報とを格納するための日本語辞書53とを有する。なお、辞書見出しとは、辞書において項目として示したものであり、以下では辞書見出しを単に見出しと称する。
制御部26は、表記展開手段28と、採否判定用情報計算手段16と、登録確認手段55と、辞書登録手段54とを備えている。制御部26には、プログラムにしたがって所定の処理を実行するCPU(不図示)と、プログラムを格納するためのプログラムメモリ(不図示)とを有する。プログラムメモリには、辞書登録支援プログラム56、異表記展開用プログラムおよび形態素解析用プログラムが格納されている。
図10に示す表記展開手段28は、実施形態1の表記読み対応手段18と表記展開手段14の両方の機能を備えている。そのため、表記展開知識記憶部13、言語情報記憶部12、採否判定記憶部15、表記展開手段28および採否判定用情報計算手段16を備えた異表記展開部52は、実施形態1の異表記展開装置と同様な構成である。異表記展開部52は、見出しとその読みが入力されると、実施形態1で説明したようにして表記バリエーションを生成して登録確認手段55に送出する。
登録確認手段55は、生成された表記バリエーションを日本語表記展開部52から受け取ると、各表記バリエーションに対する採否の入力を操作者に要求する旨を出力部17に表示させる。各表記バリエーションの採否が入力されると、採用の情報が付与された表記バリエーションを辞書登録手段54に送出する。辞書登録手段54は、登録確認手段55にて採用の情報が付与された表記バリエーションとともに元の見出しの辞書登録情報を日本語辞書53に登録する。
なお、表記展開手段28の代わりに、実施形態2で説明した表記展開手段24であってもよい。
次に、辞書登録装置の動作について説明する。図11は辞書登録装置の動作手順を示すフローチャートである。
図11に示すように、操作者により入力部11を介して、日本語の見出し、その見出しの読み、およびその見出しの辞書登録情報が入力されると(ステップ601)、通常の辞書登録装置と同様に、辞書登録手段55は、ステップ601で入力された見出しと読みとその辞書登録情報を日本語辞書53に登録する(ステップ602)。また、異表記展開部52は、入力された見出しとその読みと所定の場合に辞書登録情報とから、見出しの表記バリエーションを作成する(ステップ603)。登録確認手段55は、異表記展開部52から表記バリエーションを受け取ると、表記バリエーションを出力部17に出力させる。そして、各表記バリエーションについての採否の入力を要求する旨を出力部17に表示させる。操作者が入力部11を操作して、出力された各表記バリエーションについて採用するか不採用とするかを入力する(ステップ604)。登録確認手段55は、操作者により採用された表記バリエーションを辞書登録手段54に送出する。辞書登録手段54は、登録確認手段55から表記バリエーションを受け取ると、受け取った表記バリエーションの元の見出しとその見出しの読みとその見出しの辞書登録情報とともに日本語辞書53に格納する(ステップ605)。
本実施形態における辞書登録装置の実施例について説明する。ここでは、形態素解析用の辞書に単語を登録する場合とする。
入力部11から「見出し:取り扱う、読み:とりあつかう、品詞:動詞ワ行五段」が入力されると、辞書登録手段54は、見出し「取り扱う」とともに、読み「とりあつかう」と品詞「動詞ワ行五段」を含む辞書登録情報を日本語辞書53に登録する。
日本語辞書53に登録:「見出し:取り扱う、読み:とりあつかう、品詞:動詞ワ行五段」
また、異表記展開部52は、「見出し:取り扱う、読み:とりあつかう」が入力さ
れると、実施例1と同様にして表記バリエーションを生成する。以下に、生成された表記バリエーションを示す。
取りあつかう とり扱う とりあつかう 取り扱かう
とり扱かう 取扱う 取あつかう 取扱かう
登録確認手段55は、異表記展開部52から上記表記バリエーションを受け取ると
、表記バリエーションと一緒に各表記バリエーションについて採否の入力を要求する旨を出力部17に表示させる。操作者が入力部11を操作して「取りあつかう」と「とり扱う」について「採用」を入力し、その他の表記バリエーションについては「不採用」を入力すると、登録確認手段55は、表記バリエーション「取りあつかう」および「とり扱う」を辞書登録手段54に送出する。辞書登録手段54は、登録確認手段55から表記バリエーション「取りあつかう」および「とり扱う」を受け取ると、日本語辞書53に「見出し:取りあつかう、読み:とりあつかう、品詞:動詞ワ行五段」と「見出し:とり扱う、読み:とりあつかう、品詞:動詞ワ行五段」とを登録する。本実施例では形態素解析用の辞書への登録の場合なので、必須の辞書登録情報ではない読みは登録してもしなくてもよい。
次に、入力された見出しに対応する表記バリエーションを出力部17に出力する際
、操作者が採否判定をより効率よく行えるようにする方法について説明する。その方法とは、出現頻度や、利用可能性をランク付けした情報等の採用度を示す採否判定用情報を表記バリエーションとともに出力させるものである。ここでは、採否判定用情報が出現頻度の場合で説明する。また、出現頻度の値をそのまま表示させるのではなく、出現頻度が予め決められた値よりも高い表記バリエーションに印を付けて表示させるようにしてもよい。この場合、異表記展開部52が実施例1で述べた採否判定用情報の判定方法のうち第2の判定方法を行うことで、出現頻度に対応した採否判定用情報を表記バリエーションに付与する。そして、登録確認手段55は、異表記展開部52から採否判定用情報を伴った表記バリエーションを受け取ると、出現頻度が予め決められた値よりも高い表記バリエーションに印を付けて出力部17に表示させる。以下に、この場合の具体例を説明する。具体例では、出現頻度が100以上であれば高頻度とし、100より小さければ低頻度とする。また、高頻度の表記バリエーションに印「○」を付けるものとする。
上述の場合と同様に「見出し:取り扱う、読み:とりあつかう」が入力部11を介
して入力されると、異表記展開部52は、表記バリエーションを生成し、表記バリエーション毎に出現頻度の情報を含む採否判定用情報を付与して登録確認手段55に送出する。登録確認手段55は、異表記展開部52から表記バリエーションと採否判定用情報を受け取ると、採否判定用情報を読み出す。そして、表記バリエーションを出力部17に表示させる際、採否判定用情報の出現頻度が100以上の表記バリエーションには○印を付けて表示させる。以下にその表示例を示す。また、図12に登録のための一表示例を示す。
○取りあつかう ○とり扱う ○とりあつかう 取り扱かう
とり扱かう ○取扱う 取あつかう 取扱かう
このようにして各表記バリエーションの採用の妥当性を示す情報を操作者に提供す
ることで、操作者が日本語辞書53に登録する単語を選択する作業を短縮できる。異表記展開装置52から出力される、表記バリエーションに付与された採否判定用情報を利用することで、より効率的に辞書登録が行えるようになる。
なお、低頻度の表記バリエーションの方に印を付けて表示させてもよく、低頻度の表記バリエーションを出力部17に表示させないようにしてもよい。また、低頻度の表記バリエーションを日本語辞書53に登録しないように予め決めておいてもよい。また、出力部17に出力させる表記バリエーションの数および並び順の少なくともいずれかの情報を含む出力フォーマット情報を予め記憶部32に登録しておき、表記バリエーションを出力部17に出力させる際、採用判定用情報を参照して出力フォーマット情報にしたがって表記バリエーションを出力部17に出力させるようにしてもよい。例えば、出力フォーマット情報が出現頻度の高いものを先に出力させるもので、かつ表記バリエーションの数が3というものであるとする。この場合、生成された表記バリエーションが5つであるとすると、登録確認手段55は、採用判定用情報の出現頻度情報を参照して、出現頻度の高いものから低いものの順に5つのうちから3つだけ表記バリエーションを出力部17に表示させる。表記バリエーションが予め決められたフォーマットにしたがって表示されることで、操作者は各表記バリエーションに対してさらに効率よく採否判定できる。
次に、同一の表記バリエーションを日本語辞書53に二重登録しないようにする方法について説明する。その方法とは、登録対象の表記バリエーションと同一のものが日本語辞書53に既に登録されている場合、採否判定用情報計算手段16は、その表記バリエーションに不採用の採否判定用情報を付与して登録確認手段55に送出するものである。採否判定用情報計算手段16は、表記バリエーションを生成した後、生成した表記バリエーションと同一のものが日本語辞書53に登録されているかを調べる。そして、同一のものがあるとその表記バリエーションに不採用の採否判定用情報を付与し、その他の表記バリエーションには採用の採否判定用情報を付与して登録確認手段55に送出する。登録確認手段55は、異表記展開部52の採否判定用情報計算手段16から表記バリエーションを受け取ると、採否判定用情報が不採用のものは出力部17に表示させず、採否判定用情報が採用のものだけを出力部17に表示させる。以下に、具体例を説明する。
入力部11を介して「表記:射る、読み:いる、品詞:動詞一段」が入力されると、表記展開手段28が「いる」という表記バリエーションを生成して採否判定用情報計算手段16に送出する。採否判定用情報計算手段16は、表記展開手段28から表記バリエーション「いる」を受け取ると、見出し「いる」で登録されたものがあるか否かを日本語辞書53で調べる。見出し「いる」で日本語辞書53に既に登録されているものがあると、採否判定用情報計算手段16は、その表記バリエーションに不採用の採否判定用情報を付与して登録確認手段55に送出する。登録確認手段55は、採否判定用情報計算手段16から表記バリエーションを受け取ると、採否判定用情報が不採用のものは出力部17に表示させない。なお、既に登録されている表記バリエーションに付与する採否判定用情報は、不採用の情報の代わりに「既存辞書に登録された情報とバッティングしている」旨の情報であってもよい。この場合、登録確認手段55は、表記バリエーションとともに「既存辞書に登録された情報とバッティングしている」旨の情報を出力部17に表示させる。
また、上述の場合はどちらも品詞が動詞で、見出し「いる」についての二重登録を防ぐものであったが、品詞が動詞と名詞で異なるが、見出しが同一となる場合で二重登録になるのを防ぐ方法について説明する。例えば、動詞「すむ」の連用形「すみ」が表記「墨」の読み「すみ」と同一となる。採否判定用情報計算手段16は、表記展開手段28から表記バリエーションを受け取ると、辞書登録情報の品詞を読み出し、品詞が名詞であればその名詞と一致する動詞の活用形があるかを言語情報記憶部12内で調べる。一致する動詞の活用形があると、その動詞の活用形を見出しとして日本語辞書53に既に登録されているかを調べる。その動詞の活用形が見出しとして登録されていなければ、上記表記バリエーションに採用の採否判定用情報を付与して登録確認手段55に送出する。反対に、その動詞の活用形が見出しとして登録されていれば、上記表記バリエーションに不採用の採否判定用情報を付与して登録確認手段55に送出する。以下に、具体例を説明する。
入力部11を介して「表記:墨、読み:すみ、品詞:名詞」が入力されると、表記展開手段28が表記バリエーション「すみ」を生成して採否判定用情報計算手段16に送出する。採否判定用情報計算手段16は、表記展開手段28から表記バリエーションを受け取ると、品詞が名詞であることを認識し、「すみ」と一致する動詞の活用形があるかを言語情報記憶部12で調べる。そして、動詞「すむ」の連用形「すみ」が一致することを認識すると、動詞「すむ」の連用形「すみ」を見出しとして登録されているか否かを日本語辞書53内を調べる。日本語辞書53に動詞「すむ」の連用形「すみ」が見出しとして登録されていれば、採否判定用情報計算手段16は、表記バリエーション「すみ」に不採用の採否判定用情報を付与して登録確認手段55に送出する。ここで、採否判定用情報は不採用の情報の代わりに「既存辞書に登録された情報とバッティングしている」旨の情報であってもよい。
なお、採否判定用情報計算手段16は、不採用や「既存辞書に登録された情報とバッティングしている」旨の情報の代わりに、採否判定用情報として、利用可能性のランクが低いことや出現頻度が小さいことを示す低スコアの情報を付与してもよい。
本実施形態の辞書登録装置は、上述したように、操作者が日本語辞書に単語を登録する際、見出しとその読みを入力することで、その読みに対応した適切な見出しの表記バリエーションが生成される。また、各表記バリエーションに付与される採否判定用情報を効果的に操作者に提示することで、より効率的に日本語辞書を作製できる。
本実施形態では、異表記展開部52を実施形態1の異表記展開装置として説明したが、実施形態2の異表記展開装置であってもよい。
また、生成される表記バリエーションのうち操作者の入力により採用対象となる表記バリエーションを辞書に登録しているが、生成される表記バリエーションの全てについて辞書に登録してもよい。
(実施形態4)
本発明の実施形態4は、言語解析装置に関するものである。実施形態4の言語解析装置の構成について説明する。なお、実施形態1から実施形態3のいずれかと同様な構成には同一の符号を付し、その詳細な説明を省略する。
本実施形態の言語解析装置の構成について説明する。
図13は本実施形態の言語解析装置の一構成例を示すブロック図である。なお、実施形態1から実施形態3で説明した構成と同様の構成については同一の符号を付し、その詳細な説明を省略する。
図13に示すように、言語解析装置は、制御部29と、記憶部34と、入力部11と、出力部17とを有する構成である。記憶部32には、表記展開知識記憶部13と、言語情報記憶部12と、採否判定記憶部15と、入力部11を介して入力される日本語による表現を解析するための解析用辞書72と、解析用辞書72の表現を異表記展開したものが収録される追加解析用辞書74とを有する。解析用辞書72には、見出しと、その読みと、見出しに関するその他の情報である辞書情報とが見出し毎に格納されている。
制御部29は、表記展開手段28と、採否判定用情報計算手段16と、解析用辞書72および追加解析用辞書74のいずれか一方または両方を用いて日本語解析を行う解析手段75とを備えている。制御部26には、プログラムにしたがって所定の処理を実行するCPU(不図示)と、プログラムを格納するためのプログラムメモリ(不図示)とを有する。プログラムメモリには、辞書登録支援プログラム、異表記展開用プログラム、形態素解析用プログラムおよび日本語解析プログラム76が格納されている。なお、形態素解析の具体例は特許第2821143号公報に開示されているため、その詳細な説明を省略する。
図13に示す表記展開手段28は、実施形態1の表記読み対応手段18と表記展開手段14の両方の機能を備えている。そのため、表記展開知識記憶部13、言語情報記憶部12、採否判定記憶部15、表記展開手段28および採否判定用情報計算手段16を備えた異表記展開部52は、実施形態1の異表記展開装置と同様な構成である。
次に、言語解析装置の動作について説明する。図14は言語解析装置の動作手順を示すフローチャートである。
図14(a)に示すように、異表記展開部52の表記展開手段28は、解析用辞書72中における見出しとその見出しの読みが入力されると、実施形態1で説明したようにして表記バリエーションを生成する。続いて、採否判定用情報計算手段16は、表記展開手段28から受け取る各表記バリエーションに採否の判定を行い、採用の表記バリエーションに対して表記バリエーションと元の見出しの読みとその辞書情報を追加解析辞書74に登録する(ステップ801)。なお、この異表記展開部52は、ステップ801の処理を図14(b)に示す日本語解析処理時に行ってもよく、予め行っておいてもよい。
図14(b)に示すように、操作者により入力部11を介して解析対象となる日本語による表現が入力されると(ステップ802)、解析手段75は解析用辞書72と追加解析用辞書74の一方または両方を用いて入力された表現の解析を行う(ステップ803)。そして、解析結果を出力部17に出力させる(ステップ804)。
なお、以下では、入力部11を介して入力される日本語による表現を入力表現と称する。また、異表記展開部52は、実施形態2の異表記展開装置と同様な構成であってもよい。
本実施例は、言語解析装置が翻訳装置の場合である。
本実施例の翻訳装置について説明する。本実施例の翻訳装置では、解析用辞書72は日英翻訳用辞書であり、追加解析用辞書74は追加日英翻訳用辞書となる。また、本実施例では、制御部29内のプログラムメモリ(不図示)に日英翻訳プログラムが格納されている。解析手段75は、入力部11を介して入力される入力表現を形態素解析し、続いて、日英翻訳用辞書および追加日英翻訳用辞書のうち少なくともいずれか一方を参照して日本語の単語を英語の単語に置き換える。ここでは、言語解析結果が形態素解析結果となる。また、翻訳処理については、特許文献4に開示されているため、その詳細な説明を省略する。
図15は日英翻訳用辞書に格納された情報の例を示す表である。図15に示すように、日英翻訳用辞書には、見出し(図15に示す表記)と、読みと、品詞、英訳、英品詞および意味分類を含む辞書情報とが単語毎に記述されている。
次に、本実施例の異表記展開部52の動作について説明する。
図15に示す見出し「野苺」について「見出し:野苺、読み:のいちご、品詞:名詞、英訳:wild strawberry、意味分類:植物,食材」の情報の登録(エントリ)がある。そのうち「見出し:野苺、読み:のいちご、意味分類:植物」が表記展開手段28に入力されると、表記展開手段28は、実施形態2で説明したようにして表記バリエーションを生成して採否判定用情報計算手段16に送出する。採否判定用情報計算手段16は、実施例2に記載された第3の方法で表記バリエーションの採否を判定する。第3の方法とは、入力された表記に関する意味情報が与えられている場合、与えられた意味情報に対応して異表記作成方法を決定するというものである。ここでは、身体部位や動植物を表す語には、それをひらがな化とカタカナ化したものをそれぞれ表記バリエーションとして採用するものである。採否判定用情報計算手段16は、「のいちご」と「ノイチゴ」を表記バリエーションとして採用し、表記バリエーションと元の見出し「野苺」の読みと見出し「野苺」に関する辞書情報とともに追加日英翻訳用辞書に登録する。
図16は追加日英翻訳用辞書に格納された情報の例を示す表である。図16に示すように、見出し「のいちご」と「ノイチゴ」が登録されている。両者の辞書情報を比較すると、その内容が一致している。
次に、別の単語として動詞が入力された場合の異表記展開部52の動作を説明する。
図15に示す見出し「取り扱う」では「見出し:取り扱う、読み:とりあつかう、品詞:動詞ワ行五段、英品詞:VERB、英訳:treat」の情報のエントリがある。そのうち「見出し:取り扱う、読み:とりあつかう」が表記展開手段28に入力されると、表記展開手段28は、実施形態1で説明したようにして「取りあつかう、とり扱う、とりあつかう、取り扱かう、とり扱かう、取扱う、取あつかう、取扱かう」の表記バリエーションを生成する。ここでは、全ての表記バリエーションを登録するため、採否判定用情報計算手段16は、表記展開手段28から表記バリエーションを受け取ると、各表記バリエーションに対して元の見出しの読みと見出しの辞書情報とともに追加日英翻訳用辞書に登録する。追加日英翻訳用辞書に登録された情報の一部を図16に示す。
なお、追加日英翻訳用辞書への登録は、上述したように、日英翻訳のための解析前に予め行っておいてもよく、その解析の際に行ってもよい。
次に、本実施例の翻訳装置の動作について説明する。ここでは、日本語から英語に翻訳を行う場合に追加日英翻訳用辞書を利用するが、その利用方法について2つの方法を説明する。
第一の方法は、日英翻訳用辞書のみを用いて解析に失敗した場合に追加日英翻訳用
辞書も用いるものである。入力部11を介して入力表現として「危険物を取り扱かう」が解析手段75に入力されたとする。「取り扱かう」という表記は送り仮名が誤っている。この入力表現について、図15に示した、一般的によく利用される見出しのみが登録された日英翻訳用辞書のみを用いて解析手段75が解析・翻訳を行うと、以下のような英文を作成する。
形態素解析結果:(危険物:名詞)(を:助詞)(取り:動詞)(扱:未知語)(かう:動詞)
翻訳結果 : A dangerous object is taken and扱 is bought.
形態素解析の段階で解析結果に未知語「扱」を含んでしまっている。そのため、翻
訳結果を見てわかるように、未知語「扱」が残ったままの英文となり、解析に失敗している。この結果が出力部17に表示され、操作者が入力部11を操作して解析のやり直しを指示する旨を入力する。これにより、図16に示した追加日英翻訳辞書も用いて解析手段75が解析・翻訳を行うと、以下のような英文を作成する。
形態素解析結果:(危険物:名詞)(を:助詞)(取り扱かう:動詞)
翻訳結果 :A dangerous object is treated.
形態素解析の段階で誤った送り仮名の表記を救っている。そのため、翻訳結果を見
てわかるように、正しい英文に翻訳を行っており、より正確に翻訳できる。
第二の方法は、日英翻訳用辞書と追加日英翻訳用辞書を同時に利用するが、追加日
英翻訳用辞書中の見出しを使う場合には、その見出しに対して利用可能性を示すコスト(点数、重み)を与えるものである。入力部71を介して入力表現として「私がのいちごを食べる」が解析手段75に入力される。解析手段75は、日英翻訳用辞書のみ用いて解析・翻訳を行うと、以下のような英文を作成する。
形態素解析結果:(私:名詞)(が:助詞)(の:助詞)(いちご:名詞)(を:助詞)(食べた:動詞)
翻訳結果:The strawberry which was I was eaten.
この結果を見てわかるように、形態素解析の段階で未知語を生じてしまうわけでは
ないが、誤った翻訳を行っている。追加日英翻訳用辞書を使う場合を説明する。ここでは、助詞「が」の後ろに助詞「の」が続く可能性は非常に低いというルールが予め形態素解析用プログラムに書き込まれているものとする。そして、解析手段75は、追加日英翻訳用辞書も用いて解析・翻訳を行うと、以下のような英文を作成する。
形態素解析結果:(私:名詞)(が:助詞)(のいちご:名詞)(を:助詞)(食べた:動詞)
翻訳結果:I ate a wild strawberry.
翻訳結果を見てわかるように、正しい英文に翻訳を行っている。一般に送り仮名誤
りの語は使われる頻度が少ないため、一般の語と同じコストで利用可能としてしまうと、かえって解析誤りを引き起こし易い。しかし、上記第一の方法および第二の方法で述べたように、利用可能性の低い表記バリエーションについて一般の語よりもコストを高く設定しておくことで、より正しく解析を行うことができる場合がある。なお、この第一の方法や第二の方法は従来の課題3の解決の具体例となる。
第二の方法では、助詞「が」の後ろに助詞「の」が続く可能性は非常に低いというルールを予め決めておくことで、解析手段75は追加日英翻訳用辞書を用いて正しい翻訳を行ったが、以下のようにしてもよい。使用される可能性の高い見出しのコストを小さくし、使用される可能性の低い見出しのコストを大きくすると、追加解析用辞書74中のエントリは解析用辞書72中のエントリよりも一般的にコストが大きくなる。そして、翻訳の際に最小コスト法を適用すると、解析手段75は、上記第二の方法で追加日英翻訳用辞書を使用しなかった場合のように誤った翻訳を行うことになる。その対策として、「が+の」のような滅多に使用されない接続に対して解析用辞書72だけを用いて計算したコストよりも追加解析用辞書74を用いて計算したコストの方が小さくなるようにする。そのためには、追加日本語辞書74の使用に関する何らかのヒューリスティック(学習による発見)を解析手段75が得られるようにする。その一例を説明する。解析手段75は、滅多に使用されない接続について翻訳を行う際、追加解析用辞書74を用いた場合、追加解析用辞書を74使用したことを記録することで、その後に同じような接続があるとコストの計算をせずに記録を参照して追加解析用辞書74を使用する。これにより翻訳に失敗したときだけ追加解析用辞書を用いる第一の方法よりも正確な翻訳結果が得られるようになる。
コストの付け方として別の方法を説明する。その付け方は、異表記展開部52の採否判定用情報計算手段16が表記バリエーションに付与した採否判定用情報を参考にして、採否判定用情報が不採用や低スコアなど採用に対して否定的な内容である場合、そのコストを一定量大きくするものである。例えば、頻度情報に基づいた採否判定用情報を用いて低頻度の表記バリエーションを用いる際にはコストをより大きくしたり、一定以下の長さのひらがなやカタカナの表記バリエーションに対してはコストをより大きくしたり、先頭や末尾に機能語を含む表記バリエーションに対してコストをより大きくしたりする方法が考えられる。
特許第2821143号公報に開示された形態素解析装置に基づいて、上述の第二の方法を実施する方法について説明する。表記バリエーション「のいちご」に対して、先頭に機能語を含むことを理由に採用の可能性が低くなる旨の採否判定用情報が付与されると、表記バリエーション「のいちご」の使用に対する可能性が低くなるため、そのコストが大きく設定される。表記バリエーション「のいちご」に設定されるコストを、特許2821143号公報における格助詞と格助詞の接続コスト(=助詞「が」と助詞「の」が接続するコスト)よりも小さく設定しておくことで、第二の方法を実現することが可能となる。
第一の方法や第二の方法のその他の利用方法について説明する。形態素解析、構文解析、テキストマイニング、および機械翻訳等の自然言語の文章解析ツールでは、文章解析ツールの利用者が必要とする見出しが追加で登録されたユーザ辞書を備えているものが多い。このユーザ辞書に登録された見出しに対しても第一の方法や第二の方法を適用することで、文章解析ツールの誤った処理を防ぎ、利用者にかかる負担を最小限にする。また、ユーザ辞書中の見出しを利用者の手間をかけずに拡張でき、文章解析ツールをより簡単に利用者向けにカスタマイズすることが可能となる。
本実施形態の言語解析装置は、上述したように、既存の辞書見出しから表記バリエーションを作成するが、必要以上に表記バリエーションを作成しないように抑制を加えたり、作成された表記バリエーションによる見出しに対して予め決められたルールにしたがってコストを設定したりすることで、よりロバストな、誤解析を生じにくい日本語解析を行うことができる。
なお、実施形態1から実施形態4で説明した処理内容のいずれについてもコンピュータに実行させるためのプログラムに適用することが可能である。
実施形態1の異表記展開装置の一構成例を示すブロック図である。 単漢字表・熟字訓表の内容の具体例である。 図1に示した異表記展開装置の動作手順を示すフローチャートである。 第二水準漢字のひらがな化による表記バリエーションの具体例である。 訓読みのひらがな化、和語動詞語尾の挿入・削除による表記バリエーションの具体例である。 機能語を含む抑制すべき表記バリエーションの具体例である。 実施形態2の異表記展開装置の一構成例を示すブロック図である。 図7に示した異表記展開装置の動作手順を示すフローチャートである。 身体部位・動植物を表す語のひらがな化・カタカナ化による表記バリエーションの具体例である。 実施形態3の辞書登録装置の一構成例を示すブロック図である。 図10に示した辞書登録装置の動作手順を示すフローチャートである。 日本語辞書に単語を登録するための一表示例である。 実施形態4の言語解析装置の一構成例を示すブロック図である。 図13に示した言語解析装置の動作手順を示すフローチャートである。 日英翻訳用辞書に格納された情報の具体例である。 追加日英翻訳用辞書に格納された情報の具体例である。
符号の説明
11 入力部
12 言語情報記憶部
13 表記展開知識記憶部
14、24、28 表記展開手段
15 採否判定用情報計算用知識記憶部(採否判定記憶部)
16 採否判定用情報計算手段
17 出力部
18 表記読み対応手段
20、22、26、29 制御部
30、32、34 記憶部
52 異表記展開部
53 日本語辞書
54 辞書登録手段
55 登録確認手段
72 解析用辞書
74 追加解析用辞書
75 解析手段

Claims (44)

  1. 文字列からなる表記についての異なる表記である表記バリエーションを生成するための、コンピュータによる異表記展開方法であって、
    制御部が漢字とその読みを含む言語情報、および前記表記から前記表記バリエーションを生成するための基準ルールの情報を記憶部に予め格納するステップと、
    前記制御部は、外部から前記表記とその読みが入力されると、前記基準ルールに基づいて該表記の表記バリエーションを生成するステップと、
    生成した表記バリエーションを採用するか否かの判定のための情報となる採否判定用情報を該表記バリエーションに付与するステップと、
    を有する異表記展開方法。
  2. 前記制御部は、前記入力される表記に複数の漢字が含まれていると、該表記に含まれる漢字毎にその読みを対応づけるステップを有する請求項1記載の異表記展開方法。
  3. 前記基準ルールは、
    入力される表記中の第二水準の漢字をひらがな化することにより前記表記バリエーションを生成するルール、および、入力される表記中の訓読みの漢字をひらがな化することにより前記表記バリエーションを生成するルールのうち少なくともいずれかを含む請求項1または2記載の異表記展開方法。
  4. 前記基準ルールは、
    入力される表記中に和語動詞を表す漢字が含まれているときに、その連用語尾に相当するひらがなを挿入して前記表記バリエーションを生成するルール、その連用語尾に相当するひらがなを表記から削除して前記表記バリエーションを生成するルール、および、その漢字に対応する読みの最後のひらがなをその漢字の直後に挿入して前記表記バリエーションを生成するルールのうち少なくともいずれかを含む請求項1から3のいずれか1項記載の異表記展開方法。
  5. 前記基準ルールは、
    表記とともに追加情報として品詞の情報が入力されると、前記表記中に自立語があれば該自立語の表記バリエーションを生成し、機能語があれば該機能語の表記バリエーションを生成しない請求項1から4のいずれか1項記載の異表記展開方法。
  6. 前記制御部は、採用の禁止された表記バリエーションを示す展開禁止語リストを前記記憶部に予め格納するステップと、
    前記表記バリエーションが前記展開禁止語リストにあるか否かの情報を前記採否判定用情報に登録するステップと、
    を有する請求項1から5のいずれか1項記載の異表記展開方法。
  7. 前記制御部は、表記バリエーションについての文書中における出現頻度を示す情報を含む前記言語情報を予め格納するステップと、
    前記出現頻度を示す情報を前記表記バリエーションの前記採否判定用情報に登録するステップと、
    を有する請求項1から5のいずれか1項記載の異表記展開方法。
  8. 前記制御部が、表記バリエーションの利用可能性をランク付けした情報を含む前記言語情報を予め格納するステップと、
    前記ランク付けした情報を前記表記バリエーションの前記採否判定用情報に登録するステップと、
    を有する請求項1から5のいずれか1項記載の異表記展開方法。
  9. 前記表記バリエーションの先頭または末尾が機能語であるとき、
    前記制御部が前記表記バリエーションの先頭または末尾が機能語である旨の情報を前記採否判定用情報に登録するステップを有する請求項1から5のいずれか1項記載の異表記展開方法。
  10. 前記表記バリエーションがひらがなで、かつ該表記バリエーションの文字数が所定の数よりも小さいとき、
    前記制御部が前記表記バリエーションの文字数が所定の数よりも小さい旨の情報を前記採否判定用情報に登録するステップを有する請求項1から5のいずれか1項記載の異表記展開方法。
  11. 前記制御部は、前記表記バリエーションに対して前記採否判定用情報に基づいて採用度を求める請求項1から10のいずれか1項記載の異表記展開方法。
  12. 文字列からなる表記についての異なる表記である表記バリエーションを辞書に登録するための、コンピュータによる辞書登録方法であって、
    制御部は、見出しと該見出しの読みと該見出しの辞書登録情報が入力されると、該見出しおよび該見出しの読みとともに該辞書登録情報を前記記憶部の前記辞書に登録するステップと、
    入力された見出しを前記表記として請求項1から請求項11のいずれか1項記載の異表記展開方法により前記表記バリエーションを生成するステップと、
    採用対象の表記バリエーションを元の見出しと該見出しの読みと該見出しの辞書登録情報とともに前記辞書に登録するステップと、
    を有する辞書登録方法。
  13. 前記制御部は、生成した表記バリエーションの全てを採用対象とする請求項12記載の辞書登録方法。
  14. 前記制御部が前記表記バリエーションとともに前記採否判定用情報を出力部に出力させるステップを有する請求項12記載の辞書登録方法。
  15. 前記制御部は、前記出力部に出力させる表記バリエーションの数および並び順の少なくともいずれかを含む出力フォーマット情報を予め記憶部に格納するステップと、
    前記表記バリエーションを前記出力部に出力させるステップで、前記制御部は、前記採用判定用情報を参照して前記出力フォーマット情報にしたがって該表記バリエーションを前記出力部に出力させる請求項14記載の辞書登録方法。
  16. 前記制御部は、前記表記バリエーションの文書中における出現頻度の情報を該表記バリエーションに付与された前記採否判定用情報に予め格納するステップと、
    前記出現頻度が予め決められた基準値よりも大きい表記バリエーションを出力部に出力させるステップと、
    を有する請求項12記載の辞書登録方法。
  17. 前記表記バリエーションを前記出力部に出力させるステップで、前記制御部は、前記出現頻度が予め決められた基準値よりも大きい表記バリエーションに所定の印を付けて該出力部に出力させる請求項16記載の辞書登録方法。
  18. 前記表記バリエーションを前記出力部に出力させるステップで、前記制御部は、該表記バリエーションが前記辞書に登録された見出しに一致すれば、該表記バリエーションを前記出力部に出力させない請求項14から17のいずれか1項記載の辞書登録方法。
  19. 前記制御部は、前記出力部に出力された表記バリエーションに対して採用する旨の指示が入力されると、該表記バリエーションを採用対象とする請求項14から17のいずれか1項記載の辞書登録方法。
  20. 言語による表現について品詞に解析する方法であって、
    制御部は、文字列からなる表記、その読みおよび品詞を含む情報が登録された解析用辞書と該表記についての異なる表記である表記バリエーションを見出しとして登録するための追加解析用辞書を予め記憶部に格納するステップと、
    前記表記について請求項1から請求項11のいずれか1項記載の異表記展開方法により前記表記バリエーションを生成するステップと、
    前記表記バリエーションを前記追加解析用辞書に登録するステップと、
    前記表現が入力されると、前記解析用辞書および前記追加解析用辞書の少なくともいずれか一方を用いて該表現を単語に分解して各単語に品詞を付与する形態素解析を行うステップと、
    前記形態素解析の結果を出力部に出力させるステップと、
    を有する言語解析方法。
  21. 前記形態素解析を行うステップで、前記制御部は前記解析用辞書を用いて形態素解析を行い、
    前記制御部は、前記形態素解析の結果を前記出力部に出力させた後、解析をやり直す旨の指示が入力されると、前記追加解析用辞書を用いて形態素解析を行う請求項20記載の言語解析方法。
  22. 前記制御部が前記見出しについて利用可能性を示すコストの情報を前記追加解析用辞書に予め登録するステップを有し、
    形態素解析を行うステップで、前記制御部は、分解した単語に一致する見出しを前記追加解析用辞書で検索し、該単語に一致する見出しとともに登録されたコストを参照し、該単語をそのまま採用して品詞を付与するか否かを決定する請求項20または21記載の言語解析方法。
  23. 文字列からなる表記についての異なる表記である表記バリエーションを生成する処理をコンピュータに実行させるプログラムであって、
    漢字とその読みを含む言語情報、および前記表記から前記表記バリエーションを生成するための基準ルールの情報を記憶部に予め格納するステップと、
    外部から前記表記とその読みが入力されると、前記基準ルールに基づいて該表記の表記バリエーションを生成するステップと、
    生成した表記バリエーションを採用するか否かの判定のための情報となる採否判定用情報を該表記バリエーションに付与するステップと、
    を有する処理を前記コンピュータに実行させるためのプログラム。
  24. 前記入力される表記に複数の漢字が含まれていると、該表記に含まれる漢字毎にその読みを対応づけるステップを有する請求項23記載のプログラム。
  25. 前記基準ルールは、
    入力される表記中の第二水準の漢字をひらがな化することにより前記表記バリエーションを生成するルール、および、入力される表記中の訓読みの漢字をひらがな化することにより前記表記バリエーションを生成するルールのうち少なくともいずれかを含む請求項23または24記載のプログラム。
  26. 前記基準ルールは、
    入力される表記中に和語動詞を表す漢字が含まれているときに、その連用語尾に相当するひらがなを挿入して前記表記バリエーションを生成するルール、その連用語尾に相当するひらがなを表記から削除して前記表記バリエーションを生成するルール、および、その漢字に対応する読みの最後のひらがなをその漢字の直後に挿入して前記表記バリエーションを生成するルールのうち少なくともいずれかを含む請求項23から25のいずれか1項記載のプログラム。
  27. 前記基準ルールは、
    表記とともに追加情報として品詞の情報が入力されると、前記表記中に自立語があれば該自立語の表記バリエーションを生成し、機能語があれば該機能語の表記バリエーションを生成しない請求項23から26のいずれか1項記載のプログラム。
  28. 採用の禁止された表記バリエーションを示す展開禁止語リストを前記記憶部に予め格納するステップと、
    前記表記バリエーションが前記展開禁止語リストにあるか否かの情報を前記採否判定用情報に登録するステップと、
    を有する請求項23から27のいずれか1項記載のプログラム。
  29. 表記バリエーションについての文書中における出現頻度を示す情報を含む前記言語情報を予め格納するステップと、
    前記出現頻度を示す情報を前記表記バリエーションの前記採否判定用情報に登録するステップと、
    を有する請求項23から27のいずれか1項記載のプログラム。
  30. 表記バリエーションの利用可能性をランク付けした情報を含む前記言語情報を予め格納するステップと、
    前記ランク付けした情報を前記表記バリエーションの前記採否判定用情報に登録するステップと、
    を有する請求項23から27のいずれか1項記載のプログラム。
  31. 前記表記バリエーションの先頭または末尾が機能語であるとき、
    前記表記バリエーションの先頭または末尾が機能語である旨の情報を前記採否判定用情報に登録するステップを有する請求項23から27のいずれか1項記載のプログラム。
  32. 前記表記バリエーションがひらがなで、かつ該表記バリエーションの文字数が所定の数よりも小さいとき、
    前記表記バリエーションの文字数が所定の数よりも小さい旨の情報を前記採否判定用情報に登録するステップを有する請求項23から27のいずれか1項記載のプログラム。
  33. 前記表記バリエーションに対して前記採否判定用情報に基づいて採用度を求める請求項23から32のいずれか1項記載のプログラム。
  34. 文字列からなる表記についての異なる表記である表記バリエーションを辞書に登録する処理をコンピュータに実行させるためのプログラムであって、
    見出しと該見出しの読みと該見出しの辞書登録情報が入力されると、該見出しおよび該見出しの読みとともに該辞書登録情報を前記記憶部の前記辞書に登録するステップと、
    入力された見出しを前記表記として請求項23から請求項33のいずれか1項記載のプログラムにより前記表記バリエーションを生成するステップと、
    採用対象の表記バリエーションを元の見出しと該見出しの読みと該見出しの辞書登録情報とともに前記辞書に登録するステップと、
    を有する処理を前記コンピュータに実行させるためのプログラム。
  35. 生成した表記バリエーションの全てを採用対象とする請求項34記載のプログラム。
  36. 前記表記バリエーションとともに前記採否判定用情報を出力部に出力させるステップを有する請求項34記載のプログラム。
  37. 前記出力部に出力させる表記バリエーションの数および並び順の少なくともいずれかを含む出力フォーマット情報を予め記憶部に格納するステップと、
    前記表記バリエーションを前記出力部に出力させるステップで、前記採用判定用情報を参照して前記出力フォーマット情報にしたがって該表記バリエーションを該出力部に出力させる請求項36記載のプログラム。
  38. 前記表記バリエーションの文書中における出現頻度の情報を該表記バリエーションに付与された前記採否判定用情報に予め格納するステップと、
    前記出現頻度が予め決められた基準値よりも大きい表記バリエーションを出力部に出力させるステップと、
    を有する請求項34記載のプログラム。
  39. 前記表記バリエーションを前記出力部に出力させるステップで、前記出現頻度が予め決められた基準値よりも大きい表記バリエーションに所定の印を付けて前記出力部に出力させる請求項38記載のプログラム。
  40. 前記表記バリエーションを前記出力部に出力させるステップで、該表記バリエーションが前記辞書に登録された見出しに一致すれば、該表記バリエーションを前記出力部に出力させない請求項36から39のいずれか1項記載のプログラム。
  41. 前記出力部に出力された表記バリエーションに対して採用する旨の指示が入力されると、該表記バリエーションを採用対象とする請求項36から39のいずれか1項記載のプログラム。
  42. 言語による表現について品詞に解析する処理をコンピュータに実行させるためのプログラムであって、
    文字列からなる表記、その読みおよび品詞を含む情報が登録された解析用辞書と該表記についての異なる表記である表記バリエーションを見出しとして登録するための追加解析用辞書を予め記憶部に格納するステップと、
    前記表記について請求項23から請求項33のいずれか1項記載のプログラムにより前記表記バリエーションを生成するステップと、
    前記表記バリエーションを前記追加解析用辞書に登録するステップと、
    前記表現が入力されると、前記解析用辞書および前記追加解析用辞書の少なくともいずれか一方を用いて該表現を単語に分解して各単語に品詞を付与する形態素解析を行うステップと、
    前記形態素解析の結果を出力部に出力させるステップと、
    を有する処理を前記コンピュータに実行させるためのプログラム。
  43. 前記形態素解析を行うステップで、前記解析用辞書を用いて形態素解析を行い、
    前記形態素解析の結果を出力部に出力させた後、解析をやり直す旨の指示が入力されると、前記追加解析用辞書を用いて形態素解析を行う請求項42記載のプログラム。
  44. 前記見出しについて利用可能性を示すコストの情報を前記追加解析用辞書に予め登録するステップを有し、
    形態素解析を行うステップで、分解した単語に一致する見出しを前記追加解析用辞書で検索し、該単語に一致する見出しとともに登録されたコストを参照し、該単語をそのまま採用して品詞を付与するか否かを決定する請求項42または43記載のプログラム。

JP2005036243A 2005-02-14 2005-02-14 言語解析方法およびプログラム Active JP4760043B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005036243A JP4760043B2 (ja) 2005-02-14 2005-02-14 言語解析方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005036243A JP4760043B2 (ja) 2005-02-14 2005-02-14 言語解析方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2006221532A true JP2006221532A (ja) 2006-08-24
JP4760043B2 JP4760043B2 (ja) 2011-08-31

Family

ID=36983817

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005036243A Active JP4760043B2 (ja) 2005-02-14 2005-02-14 言語解析方法およびプログラム

Country Status (1)

Country Link
JP (1) JP4760043B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008134842A (ja) * 2006-11-28 2008-06-12 Yahoo Japan Corp 品詞バリエーション生成装置
JP2008299675A (ja) * 2007-05-31 2008-12-11 Yahoo Japan Corp かな混在表記抽出装置、方法及びプログラム
JP2009258293A (ja) * 2008-04-15 2009-11-05 Mitsubishi Electric Corp 音声認識語彙辞書作成装置
JP2011186976A (ja) * 2010-03-11 2011-09-22 Dainippon Printing Co Ltd 表記ゆれ解析装置、表記ゆれ解析方法、プログラムおよび記憶媒体
JP2014106607A (ja) * 2012-11-26 2014-06-09 Nippon Telegr & Teleph Corp <Ntt> 読み仮名誤り検出装置、方法並びにプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04119469A (ja) * 1990-09-10 1992-04-20 Nec Corp 辞書作成支援装置
JPH0773197A (ja) * 1993-09-03 1995-03-17 Fujitsu Ltd 異表記語辞書作成支援装置
JPH0844723A (ja) * 1994-07-27 1996-02-16 Toshiba Corp 文書作成装置または文書作成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04119469A (ja) * 1990-09-10 1992-04-20 Nec Corp 辞書作成支援装置
JPH0773197A (ja) * 1993-09-03 1995-03-17 Fujitsu Ltd 異表記語辞書作成支援装置
JPH0844723A (ja) * 1994-07-27 1996-02-16 Toshiba Corp 文書作成装置または文書作成方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008134842A (ja) * 2006-11-28 2008-06-12 Yahoo Japan Corp 品詞バリエーション生成装置
JP2008299675A (ja) * 2007-05-31 2008-12-11 Yahoo Japan Corp かな混在表記抽出装置、方法及びプログラム
JP2009258293A (ja) * 2008-04-15 2009-11-05 Mitsubishi Electric Corp 音声認識語彙辞書作成装置
JP2011186976A (ja) * 2010-03-11 2011-09-22 Dainippon Printing Co Ltd 表記ゆれ解析装置、表記ゆれ解析方法、プログラムおよび記憶媒体
JP2014106607A (ja) * 2012-11-26 2014-06-09 Nippon Telegr & Teleph Corp <Ntt> 読み仮名誤り検出装置、方法並びにプログラム

Also Published As

Publication number Publication date
JP4760043B2 (ja) 2011-08-31

Similar Documents

Publication Publication Date Title
US5895446A (en) Pattern-based translation method and system
KR102256240B1 (ko) 논팩토이드형 질의 응답 시스템 및 방법
US8005662B2 (en) Translation method, translation output method and storage medium, program, and computer used therewith
JP5356197B2 (ja) 単語意味関係抽出装置
US20180011830A1 (en) Annotation Assisting Apparatus and Computer Program Therefor
US20060247914A1 (en) System and method for automatic enrichment of documents
JP2008539476A (ja) スペル提示の生成方法およびシステム
KR20060043682A (ko) 개선된 맞춤법 검사를 위한 시스템 및 방법
JPH11110416A (ja) データベースからドキュメントを検索するための方法および装置
JP2001101185A (ja) 辞書の自動切り換えが可能な機械翻訳方法および装置並びにそのような機械翻訳方法を実行するためのプログラムを記憶したプログラム記憶媒体
JP4760043B2 (ja) 言語解析方法およびプログラム
Gagné et al. Pseudo-morphemic structure inhibits, but morphemic structure facilitates, processing of a repeated free morpheme
Ganfure et al. Design and implementation of morphology based spell checker
US20210064820A1 (en) Machine learning lexical discovery
JP3638145B2 (ja) 穴埋め問題作成装置、穴埋め問題作成用のコンピュータプログラム及びそのプログラムを記録した記録媒体
JP2007164635A (ja) 同義語彙獲得方法及び装置及びプログラム
US20210073466A1 (en) Semantic vector rule discovery
US8977538B2 (en) Constructing and analyzing a word graph
JP2005174003A (ja) 要約生成方法およびプログラム
Miłkowski et al. Using SRX standard for sentence segmentation
Colton Text classification using Python
JP4938298B2 (ja) テキストの要約に含める文の候補を出力する方法およびプログラム
Vayadande et al. Spell Checker Model for String Comparison in Automata
JP2007316834A (ja) 日本語文章修正装置、日本語文章修正方法および日本語文章修正のためのプログラム
Alshahrani An Investigation into the Cross-Linguistic Robustness of Textual Equivalence Techniques

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100721

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100921

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101124

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110221

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110301

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110523

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140617

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4760043

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150