JP2006221532A

JP2006221532A - 異表記展開方法、辞書登録方法および言語解析方法ならびにプログラム

Info

Publication number: JP2006221532A
Application number: JP2005036243A
Authority: JP
Inventors: Kunihiko Sadamasa; 邦彦定政; Shinichi Doi; 伸一土井
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2005-02-14
Filing date: 2005-02-14
Publication date: 2006-08-24
Anticipated expiration: 2025-02-14
Also published as: JP4760043B2

Abstract

【課題】１つの表記についての表記バリエーションを生成する際、不適切な表記バリエーションの生成を抑制した異表記展開方法を提供する。
【解決手段】漢字とその読みを含む言語情報、および表記から表記バリエーションを生成するための基準ルールの情報を記憶部に予め格納するステップと、外部から表記とその読みが入力されると、基準ルールに基づいて表記の表記バリエーションを生成するステップと、生成した表記バリエーションを採用するか否かの判定のための情報となる採否判定用情報を表記バリエーションに付与するステップとを有する。
【選択図】図１

Description

本発明は、日本語の表記に対してそのバリエーションを生成するための異表記展開方法、辞書登録方法および言語解析方法と、その方法をコンピュータに実行させるためのプログラムとに関する。

日本語には、一つの言葉について、漢字表記、漢字かな混じり表記、ひらがな表記等の様々な表記の変形が存在する。以下では、元の表記に対して変形した表記（異表記）を表記バリエーションと称する。例えば、「夕焼」という語には、一般的によく用いられる表記バリエーションとして「夕焼」、「夕焼け」、「夕やけ」、「ゆうやけ」の４種類が挙げられる。多くの日本語処理システムでは多様な表記バリエーションに対処する一つの方法として、事前に表記バリエーションを可能な限り多数準備しておくようにしている。しかし、表記バリエーションの漏れがないように辞書登録をすることは、辞書登録作業者の多大な労力が必要であった。

特許文献１で提案されている仮名漢字変換器では、辞書中に単語と単語内の各漢字に対する読み情報を合せて保持し、単語内の漢字のうちひらがな書きしたい箇所を人手で指示するという方法を取ることで、辞書作成の労力を低減している。例えば、「憂鬱」という語に対して「憂」は「ユウ」、「鬱」は「ウツ」という読みを持つことを情報として与えておき、さらに「鬱」の字はひらがなでも書かれうることを事前に辞書中に記録しておくか、又は仮名漢字変換実行時に人手で「鬱」の字をひらがな書きすると指示することで、「憂鬱」に対する「憂うつ」という表記バリエーションに対処している。しかしながら、この方法は表記バリエーションの作成が系統的に行えるが、表記バリエーションの指定に結局人手の作業が必要であった。

そこで従来、人手を介さず特定のルールに基づいて機械的に表記バリエーションを作成する方法が提案されている。特許文献２（以下では、従来方法１と称する）で提案されている検索装置では、単語中の連用形名詞を認定し、その送り仮名を追加・削除することで自動的に表記バリエーションを作成している。例えば「組合せ」という語に対しては、「組」の部分が動詞「組む」の連用形名詞、「合せ」の部分が動詞「合せる」の連用形名詞であることから、「組」「合せ」それぞれの連用語尾を追加・削除することで「組み合わせ、組合わせ、組み合せ」といった表記バリエーションを作成している。

また、特許文献３の検索装置や特許文献４の機械翻訳装置（以下では、従来方法２と称する）では単語に与えられた読みを使って単語全体をひらがな化することで自動的にその単語の表記バリエーションを作成する方法が提案されている。例えば、「野苺」という語に対して与えられた「のいちご」という読みを用いて「野苺」の表記バリエーションとして「のいちご」を作成する。
特開平８−２１２２１０号公報特開平５−３２４７２９号公報特開平７−１２１５４７号公報特開平９−１９０４４０号公報

しかしながら、従来方法のように単純に表記バリエーションの作成を行うことには幾つかの問題がある。

まず従来方法では、存在し得ない表記を生成する可能性があった（以下では、課題１と称する）。従来方法１では、表記バリエーションを作成する元となる単語の読み情報が考慮されておらず、例えば、「夕焼」という語の表記バリエーションを作成することを考えると、「焼」の部分が動詞「焼く」の連用形にも動詞「焼ける」の連用形にも合致し得るため、正しい「夕焼け」という表記以外に「夕焼き」といった存在し得ない表記バリエーションを作成する可能性があった。

また、日本語の表記には、表記としては存在して実際に用いられ得るが、用いられる用途によってはその表記を利用することで却って悪影響を与える可能性のある表記が存在する。例えば、助詞相当の文字を先頭や末尾に含む表記は、検索用途では不要な表記となるゴミを拾う原因になりやすいし、日本語解析においては助詞周りでの誤解析に繋がりやすい。このような悪影響を与える可能性のある表記を、従来方法ではその他の一般の表記と区別をしていないか、区別が十分ではなかった（以下では、課題２と称する）。その具体例を以下に説明する。

従来方法２の検索装置においては、助詞相当の文字を先頭や末尾に含む表記とその他の一般表記との区別がなく、例えば「野苺」というクエリーに対して読み情報を用いて「のいちご」というクエリー拡張を行うと、「机の上のいちご」や「贈り物のいちご」など、「野苺」とは関連性の低い検索結果が得られてしまう可能性があった。従来方法２の機械翻訳装置においては、助詞相当の文字を先頭や末尾に含む表記と他の一般表記と区別しないか、解析結果に未登録語が含まれる時のみ表記バリエーションを用いると提案されているが、これでは区別が十分ではない。例えば、表記「野苺」から表記「のいちご」という表記バリエーションを作成することを考えると、表記バリエーション生成で得られた語をその他の一般の語と区別しない場合は「昨日のいちごを食べますか」という入力文に対して、正しい解析が「昨日／の／いちご／を／食べ／ます／か」となる所で、誤って「昨日／のいちご／を／食べ／ます／か」と解析を行う可能性がある。

一方で解析結果に未登録語が含まれる場合のみ表記バリエーションを用いると、「私がのいちごを食べる」という入力に対して「私/が/の/いちご/を/食べる」と一般の語のみで解析ができてしまうため表記「のいちご」が用いられず、正しく「私/が/のいちご/を/食べる」と解析できない可能性があった。

さらに、近年のインターネットの普及で多様な電子文書が氾濫するようになったことで、「近い」に対する「近かい」、「走る」に対する「走しる」など、本来は送り仮名誤りである表記も相当数見かけるようになった。これら送り仮名誤りの表記も正しい表記と同様に解析を行いたいとの要望が高まっているが、従来の日本語処理システムでは、これらの表記のように辞書に存在しない送り仮名誤りへの対処は考慮されていなかった（以下では、課題３と称する）。送り仮名誤りは滅多に使われない表記なので、その他の一般の表記と区別無しに用いると、却って悪影響を与える可能性が高い。

本発明は上述したような従来の技術が有する問題点を解決するためになされたものであり、１つの表記についての表記バリエーションを生成する際、不適切な表記バリエーションの生成を抑制した異表記展開方法、辞書登録方法および言語解析方法と、その方法をコンピュータに実行させるためのプログラムとを提供することを目的とする。

上記目的を達成するための本発明の異表記展開方法は、文字列からなる表記についての異なる表記である表記バリエーションを生成するための、コンピュータによる異表記展開方法であって、
制御部が漢字とその読みを含む言語情報、および前記表記から前記表記バリエーションを生成するための基準ルールの情報を記憶部に予め格納するステップと、
前記制御部は、外部から前記表記とその読みが入力されると、前記基準ルールに基づいて該表記の表記バリエーションを生成するステップと、
生成した表記バリエーションを採用するか否かの判定のための情報となる採否判定用情報を該表記バリエーションに付与するステップと、
を有するものである。

本発明では、入力される表記だけでなく読みも用いて表記バリエーションが生成され、生成された表記バリエーション毎に採否判定用情報を付与している。そのため、採否判定用情報を調べることでその表記バリエーションの利用可能性を判断することが可能となる。

一方、上記目的を達成するための本発明の辞書登録方法は、文字列からなる表記についての異なる表記である表記バリエーションを辞書に登録するための、コンピュータによる辞書登録方法であって、
制御部は、見出しと該見出しの読みと該見出しの辞書登録情報が入力されると、該見出しおよび該見出しの読みとともに該辞書登録情報を前記記憶部の前記辞書に登録するステップと、
入力された見出しを前記表記として上記本発明の異表記展開方法により前記表記バリエーションを生成するステップと、
採用対象の表記バリエーションを元の見出しと該見出しの読みと該見出しの辞書登録情報とともに前記辞書に登録するステップと、
を有するものである。

また、上記目的を達成するための本発明の言語解析方法は、言語による表現について品詞に解析する方法であって、
制御部は、文字列からなる表記、その読みおよび品詞を含む情報が登録された解析用辞書と該表記についての異なる表記である表記バリエーションを見出しとして登録するための追加解析用辞書を予め記憶部に格納するステップと、
前記表記について上記本発明の異表記展開方法により前記表記バリエーションを生成するステップと、
前記表記バリエーションを前記追加解析用辞書に登録するステップと、
前記表現が入力されると、前記解析用辞書および前記追加解析用辞書の少なくともいずれか一方を用いて該表現を単語に分解して各単語に品詞を付与する形態素解析を行うステップと、
前記形態素解析の結果を出力部に出力させるステップと、
を有するものである。

また、上記目的を達成するための本発明のプログラムは、文字列からなる表記についての異なる表記である表記バリエーションを生成する処理をコンピュータに実行させるプログラムであって、
漢字とその読みを含む言語情報、および前記表記から前記表記バリエーションを生成するための基準ルールの情報を記憶部に予め格納するステップと、
外部から前記表記とその読みが入力されると、前記基準ルールに基づいて該表記の表記バリエーションを生成するステップと、
生成した表記バリエーションを採用するか否かの判定のための情報となる採否判定用情報を該表記バリエーションに付与するステップと、
を有する処理を前記コンピュータに実行させるものである。

また、上記目的を達成するための本発明のプログラムは、文字列からなる表記についての異なる表記である表記バリエーションを辞書に登録する処理をコンピュータに実行させるためのプログラムであって、
見出しと該見出しの読みと該見出しの辞書登録情報が入力されると、該見出しおよび該見出しの読みとともに該辞書登録情報を前記記憶部の前記辞書に登録するステップと、
入力された見出しを前記表記として上記本発明のプログラムにより前記表記バリエーションを生成するステップと、
採用対象の表記バリエーションを元の見出しと該見出しの読みと該見出しの辞書登録情報とともに前記辞書に登録するステップと、
を有する処理を前記コンピュータに実行させるものである。

さらに、上記目的を達成するための本発明のプログラムは、言語による表現について品詞に解析する処理をコンピュータに実行させるためのプログラムであって、
文字列からなる表記、その読みおよび品詞を含む情報が登録された解析用辞書と該表記についての異なる表記である表記バリエーションを見出しとして登録するための追加解析用辞書を予め記憶部に格納するステップと、
前記表記について上記本発明のプログラムにより前記表記バリエーションを生成するステップと、
前記表記バリエーションを前記追加解析用辞書に登録するステップと、
前記表現が入力されると、前記解析用辞書および前記追加解析用辞書の少なくともいずれか一方を用いて該表現を単語に分解して各単語に品詞を付与する形態素解析を行うステップと、
前記形態素解析の結果を出力部に出力させるステップと、
を有する処理を前記コンピュータに実行させるものである。

本発明では、生成される表記バリエーションについて採用度を求めるための判定方法を予め設定することで、採否判定用情報に採用度を示す情報が格納される。そのため、操作者は、表記バリエーションを採用するか否かを採否判定用情報で判断することが可能となる。

（実施形態１）
本発明の実施形態１は、入力される表記に対して表記バリエーションを生成する装置である異表記展開装置に関するものである。実施形態１の異表記展開装置について説明する。

図１は異表記展開装置の一構成例を示すブロック図である。

図１に示すように、異表記展開装置は、日本語の文字列からなる表記に対してその表記バリエーションを生成する装置であり、入力部１１と、記憶部３０と、出力部１７と、制御部２０とを有する構成である。

入力部１１は、入力される元の表記である元表記とその読みを入力するためのものである。記憶部３０は、言語情報記憶部１２と、表記展開知識記憶部１３と、採否判定用情報計算用知識記憶部（以下では、「採否判定記憶部」と称する）１５とを有する。言語情報記憶部１２は、漢字、その読み、および文書中における出現頻度示す頻度情報などの言語情報を保存する。表記展開知識記憶部１３は、ある日本語の文字列から表記バリエーションを得るための基準となる基準ルールなどの知識情報を保存する。採否判定記憶部１５は、表記バリエーションについて採否判定など採用度を求める基準となる判定方法を含む知識情報を保存する。

制御部２０は、プログラムにしたがって所定の処理を実行する、図に示さないＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｇＵｎｉｔ）と、プログラムを格納するためのプログラムメモリ（不図示）とを有する。プログラムメモリには、本実施形態の文書作成処理を行うための異表記展開用プログラム１９が格納されている。制御部２０において、ＣＰＵが異表記展開用プログラム１９を実行することで行われる処理が３つの手段に分類される。その３つの手段とは、表記読み対応手段１８と、表記展開手段１４と、採否判定用情報計算手段１６である。

表記読み対応手段１８は、入力された元表記が複数の漢字を含む場合、言語情報記憶部１２に格納された言語情報を用いて、漢字と読みとの対応を取る。表記展開手段１４は、表記読み対応手段１８で対応づけられた表記とその読みに対して、表記展開知識記憶部１３に格納された基準ルールを用いて表記バリエーションを生成する。なお、表記展開手段１４は、表記読み対応手段１８から受け取る表記とその読み以外にも、元表記に関する追加情報が入力されると、追加情報を参照して表記バリエーションを生成してもよい。追加情報とは、例えば、元表記に含まれる単語の品詞である。

採否判定用情報計算手段１６は、表記展開手段１４から受け取る表記バリエーションに対し、採否判定記憶部１５に格納された判定方法に基づいて採用度を示す採否判定用情報を付与する。その際、採否判定用情報計算手段１６は、言語情報を参照して採用度を求めてもよい。ここでは、採否判定用情報は、対象となる表記バリエーションの利用可能性を示す情報である。採否判定用情報が「採用」であれば表記として利用可能であることを意味し、採否判定用情報が「不採用」であれば表記として利用可能性の著しく低いことを意味する。

出力部１７は、採否判定用情報計算手段１６から表記バリエーションを受け取ると、採否判定用情報とともに表記バリエーションを出力する。

次に、図１に示した異表記展開装置の動作手順について説明する。

図２は異表記展開装置の動作手順を示すフローチャートである。

入力部１１に日本語の文字列からなる表記とその読みが入力されると(ステップ２０１)、表記読み対応手段１８が言語情報記憶部１２に格納された漢字とその読みの情報を用いて、入力された表記と読みの対応を取る（ステップ２０２）。続いて、表記展開手段１４が、表記読み対応手段１８から表記と読みの情報を受け取ると、言語情報記憶部１２と、表記展開知識記憶部１３に格納された基準ルールの知識情報を参照し、その表記と読みとの対応付けに基づいて表記バリエーションを生成する(ステップ２０３)。採否判定用情報計算手段１６は、言語情報記憶部１２と採否判定記憶部１５を参照し、表記展開手段１４から受け取る表記バリエーションに対して採否判定用情報を付与し、表記バリエーションを出力部１７に送出する（ステップ２０４）。出力部１７は、採否判定用情報計算手段１６から受け取る表記バリエーションを出力する（ステップ２０５）。

本実施例の異表記展開装置の構成について説明する。

図２は言語情報記憶部１２に格納された言語情報を示す表である。

図２に示すように、言語情報記憶部１２には、漢字の読み方を表した単漢字表、および熟字訓と読みの対応を表した熟字訓表が格納されている。図２に示す表には、各漢字の音読み、訓読み、漢字の水準（常用漢字、第一水準、第二水準）が示されている。単漢字表としては、昭和５６年内閣告示の常用漢字表等を利用する。

表記展開知識記憶部１３には、図２に示した第二水準の漢字はひらがなで書くという基準ルールの知識情報が格納されている。以下では、表記バリエーションを生成することを異表記展開と称し、その基準ルールを異表記展開ルールと称する。

採否判定記憶部１５には、日本語の表記として相応しくない表記が予めリストアップされた展開禁止語リストが保存され、得られた表記バリエーションに対して展開禁止語リストに含まれる表記は採用を抑制するという判定方法の知識情報が格納されている。

採否判定用情報計算手段１６は、表記展開手段１４から表記バリエーションを受け取ると、採否判定記憶部１５中の展開禁止語リストを参照し、そのリスト中の表記と一致する表記バリエーションに対して不採用の採否判定用情報を付与して出力部１７に送出する。

次に、本実施例の異表記展開装置の動作について説明する。なお、展開禁止語リストに、表記「団らん」が含まれているものとする。

図３は異表記展開装置の動作手順を示すフローチャートである。

入力部１１を介して「表記：団欒、読み：だんらん」が入力されると（ステップ２０１）、表記読み対応手段１８は、図２に示した単漢字表を参照し、漢字「団」が「ダン」を読みに持ち、漢字「欒」が「ラン」を読みに持つことを認識し、入力の表記と読みの対応が「団(だん)欒(らん)」になると判断する（ステップ２０２）。

表記展開手段１４は、表記読み対応手段１８から「表記：団欒、読み：だんらん」の情報を受け取ると、図２に示した表で「欒」の漢字水準は第二水準であることを認識し、第二水準の漢字はひらがなで書くという異表記展開ルールに基づいて、「団欒」の表記バリエーションとして「団らん」を得る（ステップ２０３）。また、その他の表記バリエーションとして、「だんらん」を得る。そして、表記バリエーション「団らん」と「だんらん」を採否判定用情報計算手段１６に送出する。なお、図４に表記中の第二水準の漢字をひらがな化する際の表記バリエーションの例を示す。また、ここでは第二水準の漢字をひらがな化するという異表記展開ルールを用いたが、漢字をひらがな化する際のルールとして、常用漢字以外の漢字をひらがな化するということが表記展開知識記憶部１３に格納されていてもよい。

続いて、採否判定用情報計算手段１６は、表記展開手段１４から受け取る表記バリエーション「団らん」および「だんらん」に対して、採否判定記憶部１５の展開禁止語リスト中の表記と一致するか否かを判定する。表記バリエーションが展開禁止語リスト中に「団らん」があるため、表記バリエーション「団らん」に不採用の採否判定用情報を付与し、表記バリエーション「だんらん」に採用の採否判定用情報を付与し、これら２つの表記バリエーションを出力部１７に送出する（ステップ２０４）。

出力部１７は、採否判定用情報計算手段１６から表記バリエーション「団らん」および「だんらん」を受け取ると、これらの表記バリエーションを出力する。

次に、表記バリエーションを生成する際のルールについて、他の場合について説明する。

図３に示したステップ２０３で表記バリエーションを生成する際に、表記展開知識記憶部１３に格納された「表記中の第二水準の漢字をひらがな化することにより異表記を作成する」という異表記展開ルールを用いた。この異表記展開ルールを第１のルールとすると、第１のルール以外にも他の場合が考えられる。他のルールの場合として５種類の具体例と、各ルールにおける表記展開手段１４の動作について、以下に説明する。

第２のルールは、入力された表記中の訓読みの漢字をひらがな化することにより異表記を作成するというものである。表記展開知識記憶部１３には、訓読みの漢字はひらがなで書くという異表記展開ルールが格納されている。以下に、図３のフローチャートを参照しながら本ルールの場合における動作について説明する。

入力部１１を介して「表記：取り扱う、読み：とりあつかう」が入力されると（ステップ２０１）、表記読み対応手段１８は、単漢字表を参照し、漢字「取」が「と・る」（ここで「・る」は活用語尾）を読みに持ち、漢字「扱」が「あつか・う」（ここで「・う」は活用語尾）を読みに持つことを認識し、入力された表記と読みの対応は「取(と)り扱(あつか)う」になると判断する（ステップ２０２）。続いて、ステップ２０３で、表記展開手段１４は、表記読み対応手段１８から表記と読みの対応の情報を受け取り、単漢字表から漢字「取」の読み「と」は訓読みであることを認識すると、訓読みの漢字はひらがなで書くというルールに基づいて異表記展開を行い、表記「取り扱う」の表記バリエーション「とり扱う」を生成する。さらに、表記バリエーション「とり扱う」の漢字「扱」も訓読みで展開可能なので、全体として表記バリエーション「とり扱う」、「取りあつかう」および「とりあつかう」を生成する。

次に、直前の漢字の繰り返しを表す漢字「々」が表記に含まれる場合の動作について説明する。

入力部１１を介して「表記：寒々、読み：さむざむ」が入力されると（ステップ２０１）、表記読み対応手段１８は、単漢字表を参照し、漢字「寒」の読みが「さむ・い」であることを認識する。また、漢字「々」は直前の漢字の繰り返しを意味することから、ここでの表記「々」が「さむ」の読みを持つことを認識し、これを連濁させて「ざむ」になると判断する。このようにして、表記読み対応手段１８は、表記と読みの対応を「寒（さむ）々（ざむ）」とする（ステップ２０２）。続いて、ステップ２０３で、表記展開手段１４は、表記読み対応手段１８から表記と読みの対応の情報を受け取り、表記「寒」の読み「さむ」は訓読みであり、同様に「々」の読み「ざむ」も訓読みであることを認識し、「寒々」の表記バリエーションとして「寒ざむ」および「さむざむ」を生成する。

第二水準の漢字や訓読みの漢字は、一般の人を対象にした文書中でひらがな表記されやすいため、上記第１のルールおよび第２のルールの少なくともいずれかにより、このような漢字を含む元表記に対して一般的な文書により近い表記バリエーションが生成される。

次に、第３のルールの場合について説明する。第１のルールおよび第２のルールは漢字全般に対して適用されるものであるが、第３のルールはその中でも和語動詞に適用されるものである。第３のルールは、入力された表記中に和語動詞を表す漢字が含まれる場合、その連用語尾に相当するひらがなを挿入した表記バリエーションを生成するものである。

表記展開知識記憶部１３には、表記中に和語動詞を表す漢字が含まれていれば、その連用語尾に相当するひらがなを挿入した表記バリエーションを生成するという異表記展開ルールが格納されている。また、表記読み対応手段１８は、表記と読みの対応を取る際に、和語動詞の連用形の読みも用いるものとする。以下に、図３のフローチャートを参照しながら本ルールの場合における動作について説明する。

入力部１１を介して「表記：焼肉、読み：やきにく」が入力されると（ステップ２０１）、表記読み対応手段１８は、単漢字表を参照し、漢字「焼」が「や・く／や・ける」という読みを持ち、漢字「肉」が「ニク」という読みを持つことを認識する。また、漢字「焼」にはこの漢字を用いた和語動詞「焼く（読みは「やく」）」があり、その連用形の「焼き（読みは「やき」）」の読みを持つことを認識する。なお、表記の漢字が和語動詞を持つか否かを判断する際、単漢字表の訓読みの項を参照してもよいし、予め格納された日本語辞書においてその漢字を語幹に持つ動詞があるか否かを検索するようにしてもよい。

続いて、表記読み対応手段１８は、表記と読みの対応を取る際に和語動詞の連用形の読みを用いることで、表記と読みの対応を「焼（やき）肉（にく）」とする（ステップ２０２）。ステップ２０３で、表記展開手段１４は、表記読み対応手段１８から表記と読みの対応の情報を受け取り、漢字「焼」の部分は、上述のとおり和語動詞「焼く」の連用形を用いて対応を取っているため、「焼く」の連用語尾のひらがな「き」を表記に挿入して、「焼肉」の表記バリエーションとして「焼き肉」を生成する。

次に、第３のルールと同様に和語動詞に適用される第４のルールの場合について説明する。第４のルールは、第３のルールとは逆に、入力された表記中に和語動詞を表す漢字が含まれる場合、その連用語尾に相当するひらがなを表記から削除した表記バリエーションを生成するというものである。

表記展開知識記憶部１３には、表記中に和語動詞を表す漢字が含まれていれば、その連用語尾に相当するひらがなを表記から削除した表記バリエーションを生成するという異表記展開ルールが格納されている。また、表記読み対応手段１８は、表記と読みの対応を取る際に、和語動詞の連用形の読みも用いるものとする。以下に、図３のフローチャートを参照しながら本ルールの場合における動作について説明する。

入力部１１を介して「表記：焼き肉、読み：やきにく」が入力されると（ステップ２０１）、表記読み対応手段１８は、単漢字表および熟字訓表を参照し、漢字「焼」が「や・く」という読みを持ち、漢字「肉」が「ニク」という読みを持つことを認識し、表記と読みの対応を「焼（や）き肉（にく）」とする（ステップ２０２）。ステップ３で、表記展開手段１４は、表記読み対応手段１８から表記と読みの対応の「焼（や）き肉（にく）」を受け取り、第３のルールの場合で説明したのと同様に漢字「焼」にはこの漢字を用いた和語動詞「焼く（読みは「やく」）」があり、その連用形は「焼き（読みは「やき」）」になることを認識する。そして、表記中に和語動詞を持つ漢字「焼」が含まれ、直後にその和語動詞の連用語尾のひらがな「き」が含まれていることから、そのひらがな「き」を削除して、「焼き肉」の表示バリエーション「焼肉」を生成する。

次に、第３のルールおよび第４のルールと同様に和語動詞に適用される第５のルールの場合について説明する。第５のルールは、表記中に和語動詞を表す漢字が含まれる場合、その漢字に対応する読みの最後のひらがなをその漢字の直後に挿入した表記バリエーションを生成するというものである。

表記展開知識記憶部１３には、表記中に和語動詞を表す漢字が含まれていれば、その漢字に対応する読みの最後のひらがなをその漢字の直後に挿入した表記バリエーションを生成するという異表記展開ルールが格納されている。また、表記展開手段１４は、表記中に和語動詞を表す漢字が含まれていると、その漢字に対応する読みの最後のひらがなをその漢字の直後に挿入する。以下に、図３のフローチャートを参照しながら本ルールの場合における動作について説明する。

入力部１１を介して「表記：表す、読み：あらわす」が入力されると（ステップ２０１）、表記読み対応手段１８は、単漢字表を参照し、漢字「表」が「あらわ・す」という読みを持つことを認識し、表記と読みの対応を「表（あらわ）す」とする（ステップ２０２）。続いて、ステップ２０３で、表記展開手段１４は、表記読み対応手段１８から表記と読みの対応の情報を受け取り、単漢字表から漢字「表」にはこの漢字を用いた和語動詞「表す」があることを認識すると、漢字「表」の読みに対応する「あらわ」の最後のひらがな「わ」を漢字「表」の直後に挿入して、「表す」の表記バリエーション「表わす」を生成する。

ここで、「夕焼」を「夕焼き」と表記バリエーションを生成してしまう従来の課題１について、その解決の具体例を説明する。

入力部１１を介して「表記：夕焼、読み：ゆうやけ」が入力されると（ステップ２０１）、表記読み対応手段１８は、単漢字表を参照し、表記と読みの対応を「夕（ゆう）焼（やけ）」とする（ステップ２０２）。続いて、ステップ２０３で、表記展開手段１４は、表記読み対応手段１８から表記と読みの対応の情報を受け取り、単漢字表から漢字「焼」は「焼く」ではなく「焼ける」の連用形であることを認識し、「夕焼き」ではなく「夕焼け」という正しい表記バリエーションを生成する。

元表記に和語動詞が含まれている場合、上記第３のルール、第４のルールおよび第５のルールの少なくともいずれかにより、和語動詞に対して的確な送り仮名が付与された表記バリエーションが生成される。

第１のルールから第５のルールの異表記展開ルールからいくつかを組み合わせて適応してもよい。例えば、入力部１１を介して「表記：取り扱う、読み：とりあつかう」が入力された場合、第２のルールにより「取りあつかう」、「とり扱う」および「とりあつかう」の３種類の表記バリエーションが生成される。そして、得られた表記バリエーションも含めて第５のルールを適用すると、「取り扱かう」および「とり扱かう」の２種類の表記バリエーションが生成される。ここで生成された表記バリエーションも含めて第４のルールを適用すると、「取扱う」、「取あつかう」および「取扱かう」の３種類の表記バリエーションが生成される。「扱かう」という表記は正しくはないが、送り仮名を誤って記述した誤表記をもコンピュータに認識させたいときに役立てることができる。図５に第１のルールから第５のルールを組み合わせたときの表記展開例を示す。

なお、上記第１のルールから第５のルール以外に、表記に対して関連する追加情報、例えば、品詞が与えられた場合、それにより展開を行うかどうかの判断をするという第６のルールを用いてもよい。この場合の具体例として、名詞・動詞など自立語の類は展開を行うが、機能語についての展開を抑制するといったルールが考えられる。通常、自立語については異なる表記に展開できる可能性が高いが、機能語については他の表記に展開できる可能性が低いからである。

次に、表記バリエーションに採否判定用情報を付与する際の判定方法について、他の場合について説明する。

図３で説明したステップ２０４で表記バリエーションに付与する採否判定用情報の判定方法に、表記バリエーションが展開禁止語リストにあるか否かという基準を用いていた。この判定方法を第１の判定方法とすると、第１の判定方法では、次のようなメリットがある。上述の第１のルールから第６のルールのいずれを用いても一般的に使用されない表記バリエーションが生成されてしまう場合に、操作者がこのような表記バリエーションを展開禁止語リストに登録しておくことで、利用可能性の低い表記バリエーションが生成されるのを防げる。

一方、上記第１の判定方法以外にも他の場合が考えられる。他の判定方法として３種類の具体例と、各判定方法における採否判定用情報計算手段１６の動作について、以下に説明する。

第２の判定方法は、得られた表記バリエーションの頻度情報に対応して採否判定用情報を付与するものである。言語情報記憶部１３には、表記バリエーション毎に文書や文書集合中での出現頻度が予め格納されている。また、出現頻度の基準値と、出現頻度が基準値以上であるか否かで判定する判定方法とが採否判定記憶部１５に格納されている。採否判定用情報計算手段１６は、採否判定記憶部１５に格納された判定方法を参照し、表記バリエーションの出現頻度をその基準値と比較する。出現頻度が基準値よりも小さければ、その表記バリエーションに不採用の採否判定用情報を付与して出力部１７に送出する。また、出現頻度が基準値以上であれば、表記バリエーションに採用の採否判定用情報を付与して出力部１７に送出する。以下に具体例を説明する。

入力部１１を介して「表記：取り扱う、読み：とりあつかう」が入力され、上述したようにして表記バリエーションが生成されると、採否判定用情報計算手段１６は、各表記バリエーションの出現頻度を言語情報記憶部１３で調べる。表記バリエーションについて、ある文書集合中での出現頻度が以下のとおりであった。
取りあつかう：579、とり扱う：158、とりあつかう：1600、取り扱かう：35、
とり扱かう：0、取扱う：50600、取あつかう：3、取扱かう：4

ここで、出現頻度0以外であれば採用するという判定方法が採否判定記憶部１５に格納されていれば、採否判定用情報計算手段１６は、表記バリエーション「とり扱かう」に不採用の採否判定情報を付与し、他の表記バリエーションに採用の採否判定情報を付与する。また、出現頻度10以上であれば採用するという判定方法が採否判定記憶部１５に格納されていれば、採否判定用情報計算手段１６は、「とり扱かう」、「取あつかう」および「取扱かう」の３つの表記バリエーションに不採用の採否判定用情報を付与し、他の表記バリエーションに採用の採否判定用情報を付与する。第２の判定方法であれば、採否判定用情報が出現頻度になるため、表記バリエーションの採用度に対してより細かいランク付けが可能となる。

次に、第３の判定方法について説明する。第３の判定方法は、得られた表記バリエーションが日本語の誤った語切りを起こし易い表記であるか否かを判定し、その結果に対応した採否判定用情報を付与するものである。この第３の判定方法は、文を単語に分解して各単語に品詞を付与する形態素解析を用いるものである。以下に、問題点から解決手段という順で説明する。

入力部１１を介して「表記：椰子、読み：やし」が入力され、「第二水準漢字のひらがな化」の第１の異表記展開ルールにより表記展開手段１４が表記バリエーション「や子」を生成したとする。ここで「や子」という表記を例えば形態素解析用の辞書に登録してしまうと、形態素解析を行う際に以下のように解析誤りを引き起こす可能性がある。なお、形態素解析用辞書を予め言語情報記憶部１２に格納しておくものとする。また、形態素解析の具体例については、例えば、特許第２８２１１４３号公報に開示されているため、ここではその詳細な説明を省略する。
形態素解析への入力文：孫や子を愛する
形態素解析結果：孫/や子/を/愛する
正解解析：孫/や/子/を/愛する

解析誤りを起こした原因は、得られた表記バリエーションの先頭や末尾に、日本語解析で重要な役割を果たす機能語、特に「が、を、に、と」などの助詞類が含まれているからである。そこで、機能語が展開後の表記バリエーションの先頭や末尾に含まれる場合にはその表記バリエーションを採用しないようにしたい。このような表記バリエーションに不採用の情報を付与するために、文字列マッチの方法が考えられる。文字列マッチの方法とは、採否判定記憶部１５に予め機能語のリストを保持しておき、単純に文字列マッチによって得られた表記の先頭や末尾に日本語の機能語相当の文字列が含まれていないかをチェックするものである。この文字列マッチを採否判定用情報計算手段１６が行う。上記「や子」の例では、先頭の「や」が助詞なので、採否判定用情報計算手段１６は「や子」に不採用の採否判定用情報を付与する。助詞の文字列としては、主に以下のようなものが挙げられる。
助詞：が、を、に、と、で、へ、か、から、まで、の
や、かつ、および、または
は、も、すら、さえ、でも、しか

上述の文字列マッチの方法は、単純な方法であり、表記バリエーションが過剰に抑制されてしまうという問題がある。そこで、形態素解析を用いた方法を行う。その方法を以下に説明する。

形態素解析用プログラムを言語情報記憶部１２に予め格納しておくものとする。採否判定用情報計算手段１６は、得られた表記の前後に名詞を付与し、形態素解析用プログラムを実行して名詞を付与した表記に対して形態素解析を行う。続いて、解析結果において得られた表記の先頭や末尾に当たる箇所に機能語相当の品詞が振られているか否かを調べ、振られている場合は不採用の採否判定用情報を付与する。

形態素解析を用いた方法についての具体例を説明する。入力部１１を介して「表記：唐松、読み：からまつ」が入力されたとする。必ず名詞に解釈されるダミーエントリとして印「☆」を予め形態素解析用辞書に登録しておく。ここで、「動植物のひらがな化」のルールにより「唐松」の異表記として「からまつ」が得られた場合、「からまつ」の前後に「☆」を付与し「☆からまつ☆」の形にした上で、採否判定用情報計算手段１６は言語情報記憶部１３に格納された形態素解析用プログラムを実行して形態素解析を行う。形態素解析結果を以下に示す。
(☆：名詞)(から：助詞)(まつ：動詞)(☆：名詞)

形態素解析結果からわかるように、採否判定用情報計算手段１６は、得られた表記「からまつ」の先頭にあたる「から」を助詞と解釈し、表記バリエーション「からまつ」に対して不採用の採否判定用情報を付与する。

ここで、単純な文字列マッチでは過剰にバリエーションが抑制され、問題となる具体例について説明する。入力部１１を介して「表記：遣りたい放題、読み：やりたいほうだい」が入力されると、表記展開手段１４が表記バリエーションの１つとして「やりたい放題」を作成する。単純な文字列マッチの方法を用いると、採否判定用情報計算手段１６は展開後の表記の先頭を助詞の「や」と認識するため、表記バリエーション「やりたい放題」に不採用の採否判定用情報を付与する。

これに対して、形態素解析を用いた方法では、表記バリエーション「やりたい放題」に対して、採否判定用情報計算手段１６は、「やり／たい／放題」と解析する。この形態素解析結果では先頭末尾が機能語とならないので、採否判定用情報計算手段１６は、表記バリエーション「やりたい放題」に採用の採否判定用情報を付与する。図６に先頭末尾に機能語を含むため不採用の採否判定用情報が付与される表記バリエーションの具体例を示す。第３の判定方法では、表記バリエーションの先頭または末尾に機能語を含む場合にはその表記バリエーションを採用しないことで、日本語の誤った語切りを起こし易い表記について誤った表記バリエーションを採用することを抑制できる。なお、第３の判定方法において、採否判定用情報は、「不採用」の情報の代わりに「助詞の文字列を表層の先頭・末尾に含む」ことを示す情報であってもよい。

第４の判定方法は、得られた表記の種類と文字数に対応して採否判定用情報を付与する方法するものである。この第４の判定方法について説明する。例えば、文字数が３以下で全文字がひらがなの表記は、日本語の機能語を破壊する可能性が高い。また、文字数が２以下で全文字が全てカタカナの表記は、より長いカタカナ語を分解する可能性がある。長いカタカナ語を短いカタカナと平仮名に分解してしまうと、分解されたカタカナと平仮名が別々の単語として読み取られ、元のカタカナ語の意味とは異なるものになる可能性がある。そのため、これらの条件に該当する表記バリエーションに対して採否判定用情報計算手段１６は不採用の採否判定用情報を付与する。ここでは、表記の文字数とは単語の文字数を示す。ここでは、表記の長さを示すものとして「表記の文字数」を用いたが、モーラ数や音節数を用いてもよい。なお、この第４の判定方法においての採否判定用情報は、「不採用」の情報の代わりに「文字数制約に該当する」ことを示す情報であってもよい。

なお、本実施形態における採否判定用情報は表記バリエーションの利用可能性を示すものとしてその表記バリエーションを採用するか否かという情報であったが、利用可能性を数値「０、１、２．５、・・・」でランク付けし、数値が大きいほど利用可能性が高いものとして、採否判定用情報が利用可能性のランクを示す数値であってもよい。また、採否判定用情報は、表記バリエーションが展開禁止語リストにあるか否かという情報であってもよい。また、利用可能性をローマ字「Ａ、Ｂ、Ｃ、・・・」でランク付けし、順番が後のローマ字ほど利用可能性が低いものとして、採否判定用情報が利用可能性のランクを示すローマ字であってもよい。また、採否判定用情報は、文書中での出現頻度を示す情報であってもよい。また、採否判定用情報に、上述の複数の異表記展開ルールおよび判定方法のうちいずれを用いて生成されたものであるかを示す情報を含むようにしてもよい。以下では、利用可能性のランクが低い場合や出現頻度が小さい場合の情報を低スコアの情報と称する。

本実施形態の異表記展開装置は、上述したように、装置の操作者により入力された表記とその表記に対する読みの情報から、表記とその読みとの文字の対応を取り、その対応に基づいた適切な表記バリエーションを作成する。また、作成した表記バリエーションに対して各表記バリエーションの採否判定の基準となる情報を付与しておくことで、従来よりも安全に必要に応じて種々の表記バリエーションを利用することができる。

なお、ステップ２０３の表記バリエーションの生成やステップ２０４の採否判定用情報は、上記実施例以外のものであってもよい。
（実施形態２）
本発明の実施形態２は実施形態１と同様に異表記展開装置に関するものであるが、本実施形態の異表記展開装置は、実施形態１の異表記展開装置の表記読み対応手段を設けていない構成である。

本実施形態の異表記展開装置の構成について説明する。特にことわらない限り、採否判定用情報は「採用」および「不採用」のいずれかを示す情報であるものとする。

図７は異表記展開装置の一構成例を示すブロック図である。なお、実施形態１の異表記展開装置と同様の構成については同一の符号を付し、その詳細な説明を省略する。

図７に示すように、異表記展開装置は、入力部１１と、記憶部３０と、出力部１７と、制御部２２とを有する構成である。制御部２２は、表記展開手段２４と、採否判定用情報計算手段１６とを有する。

表記展開手段２４は、入力部１１から入力された表記およびその読みと、所定の場合に言語情報記憶部１２に格納された表記についての言語情報と、表記展開知識記憶部１３に格納された基準ルールを含む知識情報を用いて入力部１１より入力された文字列に対する表記バリエーションを生成する。

次に、図８のフローチャートを参照して本実施形態の動作について説明する。

入力部１１に日本語の文字列からなる表記とその読みが入力されると(ステップ４０１)、表記展開手段２４が言語情報記憶部１２と表記展開知識記憶部１３を参照し、入力部１１で入力された表記と読み、言語情報記憶部１２に格納された汎用の日本語の言語情報を用いて文字列の表記バリエーションを生成する(ステップ４０２)。続いて、採否判定用情報計算手段１６は、表記展開手段２４から表記バリエーションを受け取ると、言語情報記憶部１２と採否判定記憶部１５を参照し、各表記バリエーションに対して採否判定用情報を付与し、表記バリエーションを出力部１７に送出する（ステップ４０３）。出力部１７は、採否判定用情報計算手段１６から受け取る表記バリエーションを出力する（ステップ４０４）。

本実施形態における異表記展開装置の実施例について説明する。

実施形態１の異表記展開装置は、入力手段１１から入力された表記に複数の漢字が含まれる場合、漢字毎に読みとの対応を取ってから表記バリエーションを求めていた。各漢字と読みとの対応を取らなくても元表記の読みを用いて表記バリエーションを求める方法が幾つかあり、本実施例ではそれらのうち３つの方法について述べる。以下では、実施形態１と異なる表記展開知識記憶部１３および表記展開手段２４について詳細に説明する。

第１の方法は、従来方法２と同様に、表記を無条件でひらがな化するものである。

入力部１１を介して「表記：誤魔化す、読み：ごまかす」が入力されると、表記展開手段２４は、表記「誤魔化す」の読みをそのまま表記バリエーション「ごまかす」として生成する。ただし、入力される全ての表記に対してこの方法を単純に行うと、不自然にひらがなばかりで記述される表記バリエーションが生成されるため、この方法での表記バリエーションを利用した日本語解析では解析誤りが多くなることが予想される。そのため、実施例１と同様に採否判定用情報計算手段１６は、実施例１で行ったように各表記バリエーションから信頼度の低いものを特定し、特定した表記バリエーションには不採用の採否判定用情報を付与する。これにより、ある程度妥当な表記バリエーションのみを利用することができる。

課題２の具体例として挙げた「野苺」の場合で説明する。ここでは、実施例１に挙げた第３の判定方法を採用する。第３の判定方法では、採否判定用情報計算手段１６が表記の先頭や末尾に当たる箇所に機能語相当の品詞が振られているか否かを調べ、振られている場合は不採用の採否判定用情報を付与するものであった。

採否判定用情報計算手段１６は、表記「野苺」から作成される「のいちご」という表記バリエーションに対しては、先頭に助詞「の」を含むため、「表記の先頭や末尾に当たる箇所に機能語相当の品詞が振られている」場合に相当するものと判定し、不採用の採否判定用情報を付与する。表記バリエーション「のいちご」に不採用の採否判定用情報を付与しておくことで、入力される「昨日のいちごを食べますか」の文に対して形態素解析を行った場合、２つの解析結果「昨日／の／いちご／を／食べ／ます／か」と「昨日／のいちご／を／食べ／ます／か」が得られる。このとき、表記バリエーション「のいちご」には不採用の採否判定用情報が付与されているため、単語「のいちご」を含まない前者の解析結果が採用される。この方法が課題２の解決方法の１つとなる。形態素解析の具体例は、実施形態１と同様に特許第２８２１１４３号公報に開示されているため、その詳細な説明を省略する。

次に、第２の方法について説明する。第２の方法は、入力された表記に関する品詞の情報が与えられている場合、ひらがな化を行う品詞を絞るものである。例えば、ひらがな化する品詞を和語動詞と形容詞のみとする。言語情報記憶部１２には、単漢字や単語の読みの他に品詞の情報が格納されている。そして、採否判定記憶部１５にはひらがな化を行う品詞を和語動詞と形容詞のみにするというルールが予め格納され、採否判定用情報計算手段１６はそのルールを参照し、和語動詞と形容詞をひらがな化した表記バリエーションに採用の採否判定用情報を付与する。

次に、第３の方法について説明する。第３の方法は、入力された表記に関する意味情報が与えられている場合、与えられた意味情報に対応して異表記作成方法を決定するというものである。例えば、身体部位や動植物を表す語には、それをひらがな化とカタカナ化したものをそれぞれ表記バリエーションとして採用するものである。採否判定記憶部１５には、身体部位や動植物を表す語をひらがな化やカタカナ化したものに採用の採否判定用情報を付与する旨のルールが予め格納されている。そして、採否判定用情報計算手段１６は、表記バリエーションとともに意味情報を表記展開手段２４から受け取ると、採否判定記憶部１５に格納されたルールを参照し、意味情報が身体部位または動植物を表す語に相当するか否かを調べ、相当する場合にはひらがな化した表記バリエーションとカタカナ化した表記バリエーションに採用の採否判定用情報を付与する。以下に、具体例を説明する。

入力部１１を介して「表記：頭、読み：あたま、意味情報：身体部位」が入力されると、表記展開手段２４は、表記「頭」をひらがな化した「あたま」と、カタカナ化した「アタマ」を表記バリエーションとして生成する。続いて、採否判定用情報計算手段１６は、表記展開手段２４から表記バリエーションと意味情報を受け取ると、採否判定記憶部１５に格納されたルールを参照し、受け取った表記バリエーションの意味情報が身体部位や動植物を表す語であるか否かを調べる。表記バリエーションが身体部位であることを認識すると、表記バリエーション「あたま」と「アタマ」のそれぞれに採用の採否判定用情報を付与する。なお、身体部位や動植物を表す語をひらがな化およびカタカナ化した具体例を図９の表に示す。

また、表記の意味情報を入力しなくても、表記の末尾が身体部位や動植物を表す語に対応する場合は、表記全体の意味分類も表記末尾の語と同様であると推測できるので、表記をひらがな化とカタカナ化したそれぞれの表記バリエーションを採用するようにしてもよい。これは、日本語においては表記の末尾の文字列が単語の主要な語となることが多いからである。採否判定記憶部１５には、表記の末尾が身体部位や動植物を表す語に対応する場合、表記をひらがな化とカタカナ化したそれぞれの表記バリエーションに採用の採否判定用情報を付与する旨のルールが予め格納されている。採否判定用情報計算手段１６は、表記バリエーションを表記展開手段２４から受け取ると、採否判定記憶部１５に格納されたルールを参照し、表記の末尾が身体部位や動植物を表す語に相当するか否かを調べ、相当する場合にはひらがな化した表記バリエーションとカタカナ化した表記バリエーションに採用の採否判定用情報を付与する。以下に、具体例を説明する。

入力部１１を介して「表記：揚羽蝶、読み：あげはちょう」が入力されると、表記展開手段２４は、表記「揚羽蝶」をひらがな化した「あげはちょう」と、カタカナ化した「アゲハチョウ」を表記バリエーションとして生成する。続いて、採否判定用情報計算手段１６は、表記展開手段２４から表記バリエーションを受け取ると、採否判定記憶部１５に格納されたルールを参照し、受け取った表記バリエーションの末尾が身体部位や動植物を表す語に相当するか否かを調べる。そして、表記バリエーションの末尾が動植物を表す語に相当することを認識すると、表記バリエーション「あげはちょう」と「アゲハチョウ」のそれぞれに採用の採否判定用情報を付与する。

本実施形態の異表記展開装置は、上述したように、実施形態１の表記読み対応手段１８による表記とその読みの対応の情報を用いなくても、得られた各表記バリエーションに対して採否判定の基準となる情報を付与しておくことで、従来よりも安全に必要に応じて種々の表記バリエーションを利用することができる。
（実施形態３）
本発明の実施形態３は、形態素解析用の辞書などの日本語辞書に単語を登録するための装置である辞書登録装置に関するものである。実施形態３の辞書登録装置の構成について説明する。

図１０は本実施形態の辞書登録装置の一構成例を示すブロック図である。なお、実施形態１および実施形態２で説明した構成と同様の構成については同一の符号を付し、その詳細な説明を省略する。また、形態素解析の具体例は特許第２８２１１４３号に開示されているため、その詳細な説明を省略する。

図１０に示すように、辞書登録装置は、制御部２６と、記憶部３２と、入力部１１と、出力部１７とを有する構成である。記憶部３２には、表記展開知識記憶部１３と、言語情報記憶部１２と、採否判定記憶部１５と、日本語の辞書見出しと辞書見出しの読みと辞書見出しについての内容を含む辞書登録情報とを格納するための日本語辞書５３とを有する。なお、辞書見出しとは、辞書において項目として示したものであり、以下では辞書見出しを単に見出しと称する。

制御部２６は、表記展開手段２８と、採否判定用情報計算手段１６と、登録確認手段５５と、辞書登録手段５４とを備えている。制御部２６には、プログラムにしたがって所定の処理を実行するＣＰＵ（不図示）と、プログラムを格納するためのプログラムメモリ（不図示）とを有する。プログラムメモリには、辞書登録支援プログラム５６、異表記展開用プログラムおよび形態素解析用プログラムが格納されている。

図１０に示す表記展開手段２８は、実施形態１の表記読み対応手段１８と表記展開手段１４の両方の機能を備えている。そのため、表記展開知識記憶部１３、言語情報記憶部１２、採否判定記憶部１５、表記展開手段２８および採否判定用情報計算手段１６を備えた異表記展開部５２は、実施形態１の異表記展開装置と同様な構成である。異表記展開部５２は、見出しとその読みが入力されると、実施形態１で説明したようにして表記バリエーションを生成して登録確認手段５５に送出する。

登録確認手段５５は、生成された表記バリエーションを日本語表記展開部５２から受け取ると、各表記バリエーションに対する採否の入力を操作者に要求する旨を出力部１７に表示させる。各表記バリエーションの採否が入力されると、採用の情報が付与された表記バリエーションを辞書登録手段５４に送出する。辞書登録手段５４は、登録確認手段５５にて採用の情報が付与された表記バリエーションとともに元の見出しの辞書登録情報を日本語辞書５３に登録する。

なお、表記展開手段２８の代わりに、実施形態２で説明した表記展開手段２４であってもよい。

次に、辞書登録装置の動作について説明する。図１１は辞書登録装置の動作手順を示すフローチャートである。

図１１に示すように、操作者により入力部１１を介して、日本語の見出し、その見出しの読み、およびその見出しの辞書登録情報が入力されると（ステップ６０１）、通常の辞書登録装置と同様に、辞書登録手段５５は、ステップ６０１で入力された見出しと読みとその辞書登録情報を日本語辞書５３に登録する（ステップ６０２）。また、異表記展開部５２は、入力された見出しとその読みと所定の場合に辞書登録情報とから、見出しの表記バリエーションを作成する（ステップ６０３）。登録確認手段５５は、異表記展開部５２から表記バリエーションを受け取ると、表記バリエーションを出力部１７に出力させる。そして、各表記バリエーションについての採否の入力を要求する旨を出力部１７に表示させる。操作者が入力部１１を操作して、出力された各表記バリエーションについて採用するか不採用とするかを入力する（ステップ６０４）。登録確認手段５５は、操作者により採用された表記バリエーションを辞書登録手段５４に送出する。辞書登録手段５４は、登録確認手段５５から表記バリエーションを受け取ると、受け取った表記バリエーションの元の見出しとその見出しの読みとその見出しの辞書登録情報とともに日本語辞書５３に格納する（ステップ６０５）。

本実施形態における辞書登録装置の実施例について説明する。ここでは、形態素解析用の辞書に単語を登録する場合とする。

入力部１１から「見出し：取り扱う、読み：とりあつかう、品詞：動詞ワ行五段」が入力されると、辞書登録手段５４は、見出し「取り扱う」とともに、読み「とりあつかう」と品詞「動詞ワ行五段」を含む辞書登録情報を日本語辞書５３に登録する。

日本語辞書５３に登録：「見出し：取り扱う、読み：とりあつかう、品詞：動詞ワ行五段」

また、異表記展開部５２は、「見出し：取り扱う、読み：とりあつかう」が入力さ
れると、実施例１と同様にして表記バリエーションを生成する。以下に、生成された表記バリエーションを示す。
取りあつかうとり扱うとりあつかう取り扱かう
とり扱かう取扱う取あつかう取扱かう

登録確認手段５５は、異表記展開部５２から上記表記バリエーションを受け取ると
、表記バリエーションと一緒に各表記バリエーションについて採否の入力を要求する旨を出力部１７に表示させる。操作者が入力部１１を操作して「取りあつかう」と「とり扱う」について「採用」を入力し、その他の表記バリエーションについては「不採用」を入力すると、登録確認手段５５は、表記バリエーション「取りあつかう」および「とり扱う」を辞書登録手段５４に送出する。辞書登録手段５４は、登録確認手段５５から表記バリエーション「取りあつかう」および「とり扱う」を受け取ると、日本語辞書５３に「見出し：取りあつかう、読み：とりあつかう、品詞：動詞ワ行五段」と「見出し：とり扱う、読み：とりあつかう、品詞：動詞ワ行五段」とを登録する。本実施例では形態素解析用の辞書への登録の場合なので、必須の辞書登録情報ではない読みは登録してもしなくてもよい。

次に、入力された見出しに対応する表記バリエーションを出力部１７に出力する際
、操作者が採否判定をより効率よく行えるようにする方法について説明する。その方法とは、出現頻度や、利用可能性をランク付けした情報等の採用度を示す採否判定用情報を表記バリエーションとともに出力させるものである。ここでは、採否判定用情報が出現頻度の場合で説明する。また、出現頻度の値をそのまま表示させるのではなく、出現頻度が予め決められた値よりも高い表記バリエーションに印を付けて表示させるようにしてもよい。この場合、異表記展開部５２が実施例１で述べた採否判定用情報の判定方法のうち第２の判定方法を行うことで、出現頻度に対応した採否判定用情報を表記バリエーションに付与する。そして、登録確認手段５５は、異表記展開部５２から採否判定用情報を伴った表記バリエーションを受け取ると、出現頻度が予め決められた値よりも高い表記バリエーションに印を付けて出力部１７に表示させる。以下に、この場合の具体例を説明する。具体例では、出現頻度が１００以上であれば高頻度とし、１００より小さければ低頻度とする。また、高頻度の表記バリエーションに印「○」を付けるものとする。

上述の場合と同様に「見出し：取り扱う、読み：とりあつかう」が入力部１１を介
して入力されると、異表記展開部５２は、表記バリエーションを生成し、表記バリエーション毎に出現頻度の情報を含む採否判定用情報を付与して登録確認手段５５に送出する。登録確認手段５５は、異表記展開部５２から表記バリエーションと採否判定用情報を受け取ると、採否判定用情報を読み出す。そして、表記バリエーションを出力部１７に表示させる際、採否判定用情報の出現頻度が１００以上の表記バリエーションには○印を付けて表示させる。以下にその表示例を示す。また、図１２に登録のための一表示例を示す。
○取りあつかう ○とり扱う ○とりあつかう取り扱かう
とり扱かう ○取扱う取あつかう取扱かう

このようにして各表記バリエーションの採用の妥当性を示す情報を操作者に提供す
ることで、操作者が日本語辞書５３に登録する単語を選択する作業を短縮できる。異表記展開装置５２から出力される、表記バリエーションに付与された採否判定用情報を利用することで、より効率的に辞書登録が行えるようになる。

なお、低頻度の表記バリエーションの方に印を付けて表示させてもよく、低頻度の表記バリエーションを出力部１７に表示させないようにしてもよい。また、低頻度の表記バリエーションを日本語辞書５３に登録しないように予め決めておいてもよい。また、出力部１７に出力させる表記バリエーションの数および並び順の少なくともいずれかの情報を含む出力フォーマット情報を予め記憶部３２に登録しておき、表記バリエーションを出力部１７に出力させる際、採用判定用情報を参照して出力フォーマット情報にしたがって表記バリエーションを出力部１７に出力させるようにしてもよい。例えば、出力フォーマット情報が出現頻度の高いものを先に出力させるもので、かつ表記バリエーションの数が３というものであるとする。この場合、生成された表記バリエーションが５つであるとすると、登録確認手段５５は、採用判定用情報の出現頻度情報を参照して、出現頻度の高いものから低いものの順に５つのうちから３つだけ表記バリエーションを出力部１７に表示させる。表記バリエーションが予め決められたフォーマットにしたがって表示されることで、操作者は各表記バリエーションに対してさらに効率よく採否判定できる。

次に、同一の表記バリエーションを日本語辞書５３に二重登録しないようにする方法について説明する。その方法とは、登録対象の表記バリエーションと同一のものが日本語辞書５３に既に登録されている場合、採否判定用情報計算手段１６は、その表記バリエーションに不採用の採否判定用情報を付与して登録確認手段５５に送出するものである。採否判定用情報計算手段１６は、表記バリエーションを生成した後、生成した表記バリエーションと同一のものが日本語辞書５３に登録されているかを調べる。そして、同一のものがあるとその表記バリエーションに不採用の採否判定用情報を付与し、その他の表記バリエーションには採用の採否判定用情報を付与して登録確認手段５５に送出する。登録確認手段５５は、異表記展開部５２の採否判定用情報計算手段１６から表記バリエーションを受け取ると、採否判定用情報が不採用のものは出力部１７に表示させず、採否判定用情報が採用のものだけを出力部１７に表示させる。以下に、具体例を説明する。

入力部１１を介して「表記：射る、読み：いる、品詞：動詞一段」が入力されると、表記展開手段２８が「いる」という表記バリエーションを生成して採否判定用情報計算手段１６に送出する。採否判定用情報計算手段１６は、表記展開手段２８から表記バリエーション「いる」を受け取ると、見出し「いる」で登録されたものがあるか否かを日本語辞書５３で調べる。見出し「いる」で日本語辞書５３に既に登録されているものがあると、採否判定用情報計算手段１６は、その表記バリエーションに不採用の採否判定用情報を付与して登録確認手段５５に送出する。登録確認手段５５は、採否判定用情報計算手段１６から表記バリエーションを受け取ると、採否判定用情報が不採用のものは出力部１７に表示させない。なお、既に登録されている表記バリエーションに付与する採否判定用情報は、不採用の情報の代わりに「既存辞書に登録された情報とバッティングしている」旨の情報であってもよい。この場合、登録確認手段５５は、表記バリエーションとともに「既存辞書に登録された情報とバッティングしている」旨の情報を出力部１７に表示させる。

また、上述の場合はどちらも品詞が動詞で、見出し「いる」についての二重登録を防ぐものであったが、品詞が動詞と名詞で異なるが、見出しが同一となる場合で二重登録になるのを防ぐ方法について説明する。例えば、動詞「すむ」の連用形「すみ」が表記「墨」の読み「すみ」と同一となる。採否判定用情報計算手段１６は、表記展開手段２８から表記バリエーションを受け取ると、辞書登録情報の品詞を読み出し、品詞が名詞であればその名詞と一致する動詞の活用形があるかを言語情報記憶部１２内で調べる。一致する動詞の活用形があると、その動詞の活用形を見出しとして日本語辞書５３に既に登録されているかを調べる。その動詞の活用形が見出しとして登録されていなければ、上記表記バリエーションに採用の採否判定用情報を付与して登録確認手段５５に送出する。反対に、その動詞の活用形が見出しとして登録されていれば、上記表記バリエーションに不採用の採否判定用情報を付与して登録確認手段５５に送出する。以下に、具体例を説明する。

入力部１１を介して「表記：墨、読み：すみ、品詞：名詞」が入力されると、表記展開手段２８が表記バリエーション「すみ」を生成して採否判定用情報計算手段１６に送出する。採否判定用情報計算手段１６は、表記展開手段２８から表記バリエーションを受け取ると、品詞が名詞であることを認識し、「すみ」と一致する動詞の活用形があるかを言語情報記憶部１２で調べる。そして、動詞「すむ」の連用形「すみ」が一致することを認識すると、動詞「すむ」の連用形「すみ」を見出しとして登録されているか否かを日本語辞書５３内を調べる。日本語辞書５３に動詞「すむ」の連用形「すみ」が見出しとして登録されていれば、採否判定用情報計算手段１６は、表記バリエーション「すみ」に不採用の採否判定用情報を付与して登録確認手段５５に送出する。ここで、採否判定用情報は不採用の情報の代わりに「既存辞書に登録された情報とバッティングしている」旨の情報であってもよい。

なお、採否判定用情報計算手段１６は、不採用や「既存辞書に登録された情報とバッティングしている」旨の情報の代わりに、採否判定用情報として、利用可能性のランクが低いことや出現頻度が小さいことを示す低スコアの情報を付与してもよい。

本実施形態の辞書登録装置は、上述したように、操作者が日本語辞書に単語を登録する際、見出しとその読みを入力することで、その読みに対応した適切な見出しの表記バリエーションが生成される。また、各表記バリエーションに付与される採否判定用情報を効果的に操作者に提示することで、より効率的に日本語辞書を作製できる。

本実施形態では、異表記展開部５２を実施形態１の異表記展開装置として説明したが、実施形態２の異表記展開装置であってもよい。

また、生成される表記バリエーションのうち操作者の入力により採用対象となる表記バリエーションを辞書に登録しているが、生成される表記バリエーションの全てについて辞書に登録してもよい。
（実施形態４）
本発明の実施形態４は、言語解析装置に関するものである。実施形態４の言語解析装置の構成について説明する。なお、実施形態１から実施形態３のいずれかと同様な構成には同一の符号を付し、その詳細な説明を省略する。

本実施形態の言語解析装置の構成について説明する。

図１３は本実施形態の言語解析装置の一構成例を示すブロック図である。なお、実施形態１から実施形態３で説明した構成と同様の構成については同一の符号を付し、その詳細な説明を省略する。

図１３に示すように、言語解析装置は、制御部２９と、記憶部３４と、入力部１１と、出力部１７とを有する構成である。記憶部３２には、表記展開知識記憶部１３と、言語情報記憶部１２と、採否判定記憶部１５と、入力部１１を介して入力される日本語による表現を解析するための解析用辞書７２と、解析用辞書７２の表現を異表記展開したものが収録される追加解析用辞書７４とを有する。解析用辞書７２には、見出しと、その読みと、見出しに関するその他の情報である辞書情報とが見出し毎に格納されている。

制御部２９は、表記展開手段２８と、採否判定用情報計算手段１６と、解析用辞書７２および追加解析用辞書７４のいずれか一方または両方を用いて日本語解析を行う解析手段７５とを備えている。制御部２６には、プログラムにしたがって所定の処理を実行するＣＰＵ（不図示）と、プログラムを格納するためのプログラムメモリ（不図示）とを有する。プログラムメモリには、辞書登録支援プログラム、異表記展開用プログラム、形態素解析用プログラムおよび日本語解析プログラム７６が格納されている。なお、形態素解析の具体例は特許第２８２１１４３号公報に開示されているため、その詳細な説明を省略する。

図１３に示す表記展開手段２８は、実施形態１の表記読み対応手段１８と表記展開手段１４の両方の機能を備えている。そのため、表記展開知識記憶部１３、言語情報記憶部１２、採否判定記憶部１５、表記展開手段２８および採否判定用情報計算手段１６を備えた異表記展開部５２は、実施形態１の異表記展開装置と同様な構成である。

次に、言語解析装置の動作について説明する。図１４は言語解析装置の動作手順を示すフローチャートである。

図１４（ａ）に示すように、異表記展開部５２の表記展開手段２８は、解析用辞書７２中における見出しとその見出しの読みが入力されると、実施形態１で説明したようにして表記バリエーションを生成する。続いて、採否判定用情報計算手段１６は、表記展開手段２８から受け取る各表記バリエーションに採否の判定を行い、採用の表記バリエーションに対して表記バリエーションと元の見出しの読みとその辞書情報を追加解析辞書７４に登録する（ステップ８０１）。なお、この異表記展開部５２は、ステップ８０１の処理を図１４（ｂ）に示す日本語解析処理時に行ってもよく、予め行っておいてもよい。

図１４（ｂ）に示すように、操作者により入力部１１を介して解析対象となる日本語による表現が入力されると（ステップ８０２）、解析手段７５は解析用辞書７２と追加解析用辞書７４の一方または両方を用いて入力された表現の解析を行う（ステップ８０３）。そして、解析結果を出力部１７に出力させる（ステップ８０４）。

なお、以下では、入力部１１を介して入力される日本語による表現を入力表現と称する。また、異表記展開部５２は、実施形態２の異表記展開装置と同様な構成であってもよい。

本実施例は、言語解析装置が翻訳装置の場合である。

本実施例の翻訳装置について説明する。本実施例の翻訳装置では、解析用辞書７２は日英翻訳用辞書であり、追加解析用辞書７４は追加日英翻訳用辞書となる。また、本実施例では、制御部２９内のプログラムメモリ（不図示）に日英翻訳プログラムが格納されている。解析手段７５は、入力部１１を介して入力される入力表現を形態素解析し、続いて、日英翻訳用辞書および追加日英翻訳用辞書のうち少なくともいずれか一方を参照して日本語の単語を英語の単語に置き換える。ここでは、言語解析結果が形態素解析結果となる。また、翻訳処理については、特許文献４に開示されているため、その詳細な説明を省略する。

図１５は日英翻訳用辞書に格納された情報の例を示す表である。図１５に示すように、日英翻訳用辞書には、見出し（図１５に示す表記）と、読みと、品詞、英訳、英品詞および意味分類を含む辞書情報とが単語毎に記述されている。

次に、本実施例の異表記展開部５２の動作について説明する。

図１５に示す見出し「野苺」について「見出し：野苺、読み：のいちご、品詞：名詞、英訳：wild strawberry、意味分類：植物,食材」の情報の登録（エントリ）がある。そのうち「見出し：野苺、読み：のいちご、意味分類：植物」が表記展開手段２８に入力されると、表記展開手段２８は、実施形態２で説明したようにして表記バリエーションを生成して採否判定用情報計算手段１６に送出する。採否判定用情報計算手段１６は、実施例２に記載された第３の方法で表記バリエーションの採否を判定する。第３の方法とは、入力された表記に関する意味情報が与えられている場合、与えられた意味情報に対応して異表記作成方法を決定するというものである。ここでは、身体部位や動植物を表す語には、それをひらがな化とカタカナ化したものをそれぞれ表記バリエーションとして採用するものである。採否判定用情報計算手段１６は、「のいちご」と「ノイチゴ」を表記バリエーションとして採用し、表記バリエーションと元の見出し「野苺」の読みと見出し「野苺」に関する辞書情報とともに追加日英翻訳用辞書に登録する。

図１６は追加日英翻訳用辞書に格納された情報の例を示す表である。図１６に示すように、見出し「のいちご」と「ノイチゴ」が登録されている。両者の辞書情報を比較すると、その内容が一致している。

次に、別の単語として動詞が入力された場合の異表記展開部５２の動作を説明する。

図１５に示す見出し「取り扱う」では「見出し：取り扱う、読み：とりあつかう、品詞：動詞ワ行五段、英品詞：VERB、英訳：treat」の情報のエントリがある。そのうち「見出し：取り扱う、読み：とりあつかう」が表記展開手段２８に入力されると、表記展開手段２８は、実施形態１で説明したようにして「取りあつかう、とり扱う、とりあつかう、取り扱かう、とり扱かう、取扱う、取あつかう、取扱かう」の表記バリエーションを生成する。ここでは、全ての表記バリエーションを登録するため、採否判定用情報計算手段１６は、表記展開手段２８から表記バリエーションを受け取ると、各表記バリエーションに対して元の見出しの読みと見出しの辞書情報とともに追加日英翻訳用辞書に登録する。追加日英翻訳用辞書に登録された情報の一部を図１６に示す。

なお、追加日英翻訳用辞書への登録は、上述したように、日英翻訳のための解析前に予め行っておいてもよく、その解析の際に行ってもよい。

次に、本実施例の翻訳装置の動作について説明する。ここでは、日本語から英語に翻訳を行う場合に追加日英翻訳用辞書を利用するが、その利用方法について２つの方法を説明する。

第一の方法は、日英翻訳用辞書のみを用いて解析に失敗した場合に追加日英翻訳用
辞書も用いるものである。入力部１１を介して入力表現として「危険物を取り扱かう」が解析手段７５に入力されたとする。「取り扱かう」という表記は送り仮名が誤っている。この入力表現について、図１５に示した、一般的によく利用される見出しのみが登録された日英翻訳用辞書のみを用いて解析手段７５が解析・翻訳を行うと、以下のような英文を作成する。
形態素解析結果：(危険物：名詞)(を：助詞)(取り：動詞)(扱：未知語)(かう：動詞)
翻訳結果： A dangerous object is taken and扱 is bought.

形態素解析の段階で解析結果に未知語「扱」を含んでしまっている。そのため、翻
訳結果を見てわかるように、未知語「扱」が残ったままの英文となり、解析に失敗している。この結果が出力部１７に表示され、操作者が入力部１１を操作して解析のやり直しを指示する旨を入力する。これにより、図１６に示した追加日英翻訳辞書も用いて解析手段７５が解析・翻訳を行うと、以下のような英文を作成する。

形態素解析結果：(危険物：名詞)(を：助詞)(取り扱かう：動詞)
翻訳結果：A dangerous object is treated.

形態素解析の段階で誤った送り仮名の表記を救っている。そのため、翻訳結果を見
てわかるように、正しい英文に翻訳を行っており、より正確に翻訳できる。

第二の方法は、日英翻訳用辞書と追加日英翻訳用辞書を同時に利用するが、追加日
英翻訳用辞書中の見出しを使う場合には、その見出しに対して利用可能性を示すコスト（点数、重み）を与えるものである。入力部７１を介して入力表現として「私がのいちごを食べる」が解析手段７５に入力される。解析手段７５は、日英翻訳用辞書のみ用いて解析・翻訳を行うと、以下のような英文を作成する。
形態素解析結果：(私：名詞)(が：助詞)(の：助詞)(いちご：名詞)(を：助詞)(食べた：動詞)
翻訳結果：The strawberry which was I was eaten.

この結果を見てわかるように、形態素解析の段階で未知語を生じてしまうわけでは
ないが、誤った翻訳を行っている。追加日英翻訳用辞書を使う場合を説明する。ここでは、助詞「が」の後ろに助詞「の」が続く可能性は非常に低いというルールが予め形態素解析用プログラムに書き込まれているものとする。そして、解析手段７５は、追加日英翻訳用辞書も用いて解析・翻訳を行うと、以下のような英文を作成する。
形態素解析結果：(私：名詞)(が：助詞)(のいちご：名詞)(を：助詞)(食べた：動詞)
翻訳結果：I ate a wild strawberry.

翻訳結果を見てわかるように、正しい英文に翻訳を行っている。一般に送り仮名誤
りの語は使われる頻度が少ないため、一般の語と同じコストで利用可能としてしまうと、かえって解析誤りを引き起こし易い。しかし、上記第一の方法および第二の方法で述べたように、利用可能性の低い表記バリエーションについて一般の語よりもコストを高く設定しておくことで、より正しく解析を行うことができる場合がある。なお、この第一の方法や第二の方法は従来の課題３の解決の具体例となる。

第二の方法では、助詞「が」の後ろに助詞「の」が続く可能性は非常に低いというルールを予め決めておくことで、解析手段７５は追加日英翻訳用辞書を用いて正しい翻訳を行ったが、以下のようにしてもよい。使用される可能性の高い見出しのコストを小さくし、使用される可能性の低い見出しのコストを大きくすると、追加解析用辞書７４中のエントリは解析用辞書７２中のエントリよりも一般的にコストが大きくなる。そして、翻訳の際に最小コスト法を適用すると、解析手段７５は、上記第二の方法で追加日英翻訳用辞書を使用しなかった場合のように誤った翻訳を行うことになる。その対策として、「が＋の」のような滅多に使用されない接続に対して解析用辞書７２だけを用いて計算したコストよりも追加解析用辞書７４を用いて計算したコストの方が小さくなるようにする。そのためには、追加日本語辞書７４の使用に関する何らかのヒューリスティック（学習による発見）を解析手段７５が得られるようにする。その一例を説明する。解析手段７５は、滅多に使用されない接続について翻訳を行う際、追加解析用辞書７４を用いた場合、追加解析用辞書を７４使用したことを記録することで、その後に同じような接続があるとコストの計算をせずに記録を参照して追加解析用辞書７４を使用する。これにより翻訳に失敗したときだけ追加解析用辞書を用いる第一の方法よりも正確な翻訳結果が得られるようになる。

コストの付け方として別の方法を説明する。その付け方は、異表記展開部５２の採否判定用情報計算手段１６が表記バリエーションに付与した採否判定用情報を参考にして、採否判定用情報が不採用や低スコアなど採用に対して否定的な内容である場合、そのコストを一定量大きくするものである。例えば、頻度情報に基づいた採否判定用情報を用いて低頻度の表記バリエーションを用いる際にはコストをより大きくしたり、一定以下の長さのひらがなやカタカナの表記バリエーションに対してはコストをより大きくしたり、先頭や末尾に機能語を含む表記バリエーションに対してコストをより大きくしたりする方法が考えられる。

特許第２８２１１４３号公報に開示された形態素解析装置に基づいて、上述の第二の方法を実施する方法について説明する。表記バリエーション「のいちご」に対して、先頭に機能語を含むことを理由に採用の可能性が低くなる旨の採否判定用情報が付与されると、表記バリエーション「のいちご」の使用に対する可能性が低くなるため、そのコストが大きく設定される。表記バリエーション「のいちご」に設定されるコストを、特許２８２１１４３号公報における格助詞と格助詞の接続コスト（＝助詞「が」と助詞「の」が接続するコスト）よりも小さく設定しておくことで、第二の方法を実現することが可能となる。

第一の方法や第二の方法のその他の利用方法について説明する。形態素解析、構文解析、テキストマイニング、および機械翻訳等の自然言語の文章解析ツールでは、文章解析ツールの利用者が必要とする見出しが追加で登録されたユーザ辞書を備えているものが多い。このユーザ辞書に登録された見出しに対しても第一の方法や第二の方法を適用することで、文章解析ツールの誤った処理を防ぎ、利用者にかかる負担を最小限にする。また、ユーザ辞書中の見出しを利用者の手間をかけずに拡張でき、文章解析ツールをより簡単に利用者向けにカスタマイズすることが可能となる。

本実施形態の言語解析装置は、上述したように、既存の辞書見出しから表記バリエーションを作成するが、必要以上に表記バリエーションを作成しないように抑制を加えたり、作成された表記バリエーションによる見出しに対して予め決められたルールにしたがってコストを設定したりすることで、よりロバストな、誤解析を生じにくい日本語解析を行うことができる。

なお、実施形態１から実施形態４で説明した処理内容のいずれについてもコンピュータに実行させるためのプログラムに適用することが可能である。

実施形態１の異表記展開装置の一構成例を示すブロック図である。単漢字表・熟字訓表の内容の具体例である。図１に示した異表記展開装置の動作手順を示すフローチャートである。第二水準漢字のひらがな化による表記バリエーションの具体例である。訓読みのひらがな化、和語動詞語尾の挿入・削除による表記バリエーションの具体例である。機能語を含む抑制すべき表記バリエーションの具体例である。実施形態２の異表記展開装置の一構成例を示すブロック図である。図７に示した異表記展開装置の動作手順を示すフローチャートである。身体部位・動植物を表す語のひらがな化・カタカナ化による表記バリエーションの具体例である。実施形態３の辞書登録装置の一構成例を示すブロック図である。図１０に示した辞書登録装置の動作手順を示すフローチャートである。日本語辞書に単語を登録するための一表示例である。実施形態４の言語解析装置の一構成例を示すブロック図である。図１３に示した言語解析装置の動作手順を示すフローチャートである。日英翻訳用辞書に格納された情報の具体例である。追加日英翻訳用辞書に格納された情報の具体例である。

符号の説明

１１入力部
１２言語情報記憶部
１３表記展開知識記憶部
１４、２４、２８表記展開手段
１５採否判定用情報計算用知識記憶部（採否判定記憶部）
１６採否判定用情報計算手段
１７出力部
１８表記読み対応手段
２０、２２、２６、２９制御部
３０、３２、３４記憶部
５２異表記展開部
５３日本語辞書
５４辞書登録手段
５５登録確認手段
７２解析用辞書
７４追加解析用辞書
７５解析手段

Claims

文字列からなる表記についての異なる表記である表記バリエーションを生成するための、コンピュータによる異表記展開方法であって、
制御部が漢字とその読みを含む言語情報、および前記表記から前記表記バリエーションを生成するための基準ルールの情報を記憶部に予め格納するステップと、
前記制御部は、外部から前記表記とその読みが入力されると、前記基準ルールに基づいて該表記の表記バリエーションを生成するステップと、
生成した表記バリエーションを採用するか否かの判定のための情報となる採否判定用情報を該表記バリエーションに付与するステップと、
を有する異表記展開方法。
前記制御部は、前記入力される表記に複数の漢字が含まれていると、該表記に含まれる漢字毎にその読みを対応づけるステップを有する請求項１記載の異表記展開方法。
前記基準ルールは、
入力される表記中の第二水準の漢字をひらがな化することにより前記表記バリエーションを生成するルール、および、入力される表記中の訓読みの漢字をひらがな化することにより前記表記バリエーションを生成するルールのうち少なくともいずれかを含む請求項１または２記載の異表記展開方法。
前記基準ルールは、
入力される表記中に和語動詞を表す漢字が含まれているときに、その連用語尾に相当するひらがなを挿入して前記表記バリエーションを生成するルール、その連用語尾に相当するひらがなを表記から削除して前記表記バリエーションを生成するルール、および、その漢字に対応する読みの最後のひらがなをその漢字の直後に挿入して前記表記バリエーションを生成するルールのうち少なくともいずれかを含む請求項１から３のいずれか１項記載の異表記展開方法。
前記基準ルールは、
表記とともに追加情報として品詞の情報が入力されると、前記表記中に自立語があれば該自立語の表記バリエーションを生成し、機能語があれば該機能語の表記バリエーションを生成しない請求項１から４のいずれか１項記載の異表記展開方法。
前記制御部は、採用の禁止された表記バリエーションを示す展開禁止語リストを前記記憶部に予め格納するステップと、
前記表記バリエーションが前記展開禁止語リストにあるか否かの情報を前記採否判定用情報に登録するステップと、
を有する請求項１から５のいずれか１項記載の異表記展開方法。
前記制御部は、表記バリエーションについての文書中における出現頻度を示す情報を含む前記言語情報を予め格納するステップと、
前記出現頻度を示す情報を前記表記バリエーションの前記採否判定用情報に登録するステップと、
を有する請求項１から５のいずれか１項記載の異表記展開方法。
前記制御部が、表記バリエーションの利用可能性をランク付けした情報を含む前記言語情報を予め格納するステップと、
前記ランク付けした情報を前記表記バリエーションの前記採否判定用情報に登録するステップと、
を有する請求項１から５のいずれか１項記載の異表記展開方法。
前記表記バリエーションの先頭または末尾が機能語であるとき、
前記制御部が前記表記バリエーションの先頭または末尾が機能語である旨の情報を前記採否判定用情報に登録するステップを有する請求項１から５のいずれか１項記載の異表記展開方法。
前記表記バリエーションがひらがなで、かつ該表記バリエーションの文字数が所定の数よりも小さいとき、
前記制御部が前記表記バリエーションの文字数が所定の数よりも小さい旨の情報を前記採否判定用情報に登録するステップを有する請求項１から５のいずれか１項記載の異表記展開方法。
前記制御部は、前記表記バリエーションに対して前記採否判定用情報に基づいて採用度を求める請求項１から１０のいずれか１項記載の異表記展開方法。
文字列からなる表記についての異なる表記である表記バリエーションを辞書に登録するための、コンピュータによる辞書登録方法であって、
制御部は、見出しと該見出しの読みと該見出しの辞書登録情報が入力されると、該見出しおよび該見出しの読みとともに該辞書登録情報を前記記憶部の前記辞書に登録するステップと、
入力された見出しを前記表記として請求項１から請求項１１のいずれか１項記載の異表記展開方法により前記表記バリエーションを生成するステップと、
採用対象の表記バリエーションを元の見出しと該見出しの読みと該見出しの辞書登録情報とともに前記辞書に登録するステップと、
を有する辞書登録方法。
前記制御部は、生成した表記バリエーションの全てを採用対象とする請求項１２記載の辞書登録方法。
前記制御部が前記表記バリエーションとともに前記採否判定用情報を出力部に出力させるステップを有する請求項１２記載の辞書登録方法。
前記制御部は、前記出力部に出力させる表記バリエーションの数および並び順の少なくともいずれかを含む出力フォーマット情報を予め記憶部に格納するステップと、
前記表記バリエーションを前記出力部に出力させるステップで、前記制御部は、前記採用判定用情報を参照して前記出力フォーマット情報にしたがって該表記バリエーションを前記出力部に出力させる請求項１４記載の辞書登録方法。
前記制御部は、前記表記バリエーションの文書中における出現頻度の情報を該表記バリエーションに付与された前記採否判定用情報に予め格納するステップと、
前記出現頻度が予め決められた基準値よりも大きい表記バリエーションを出力部に出力させるステップと、
を有する請求項１２記載の辞書登録方法。
前記表記バリエーションを前記出力部に出力させるステップで、前記制御部は、前記出現頻度が予め決められた基準値よりも大きい表記バリエーションに所定の印を付けて該出力部に出力させる請求項１６記載の辞書登録方法。
前記表記バリエーションを前記出力部に出力させるステップで、前記制御部は、該表記バリエーションが前記辞書に登録された見出しに一致すれば、該表記バリエーションを前記出力部に出力させない請求項１４から１７のいずれか１項記載の辞書登録方法。
前記制御部は、前記出力部に出力された表記バリエーションに対して採用する旨の指示が入力されると、該表記バリエーションを採用対象とする請求項１４から１７のいずれか１項記載の辞書登録方法。
言語による表現について品詞に解析する方法であって、
制御部は、文字列からなる表記、その読みおよび品詞を含む情報が登録された解析用辞書と該表記についての異なる表記である表記バリエーションを見出しとして登録するための追加解析用辞書を予め記憶部に格納するステップと、
前記表記について請求項１から請求項１１のいずれか１項記載の異表記展開方法により前記表記バリエーションを生成するステップと、
前記表記バリエーションを前記追加解析用辞書に登録するステップと、
前記表現が入力されると、前記解析用辞書および前記追加解析用辞書の少なくともいずれか一方を用いて該表現を単語に分解して各単語に品詞を付与する形態素解析を行うステップと、
前記形態素解析の結果を出力部に出力させるステップと、
を有する言語解析方法。
前記形態素解析を行うステップで、前記制御部は前記解析用辞書を用いて形態素解析を行い、
前記制御部は、前記形態素解析の結果を前記出力部に出力させた後、解析をやり直す旨の指示が入力されると、前記追加解析用辞書を用いて形態素解析を行う請求項２０記載の言語解析方法。
前記制御部が前記見出しについて利用可能性を示すコストの情報を前記追加解析用辞書に予め登録するステップを有し、
形態素解析を行うステップで、前記制御部は、分解した単語に一致する見出しを前記追加解析用辞書で検索し、該単語に一致する見出しとともに登録されたコストを参照し、該単語をそのまま採用して品詞を付与するか否かを決定する請求項２０または２１記載の言語解析方法。
文字列からなる表記についての異なる表記である表記バリエーションを生成する処理をコンピュータに実行させるプログラムであって、
漢字とその読みを含む言語情報、および前記表記から前記表記バリエーションを生成するための基準ルールの情報を記憶部に予め格納するステップと、
外部から前記表記とその読みが入力されると、前記基準ルールに基づいて該表記の表記バリエーションを生成するステップと、
生成した表記バリエーションを採用するか否かの判定のための情報となる採否判定用情報を該表記バリエーションに付与するステップと、
を有する処理を前記コンピュータに実行させるためのプログラム。
前記入力される表記に複数の漢字が含まれていると、該表記に含まれる漢字毎にその読みを対応づけるステップを有する請求項２３記載のプログラム。
前記基準ルールは、
入力される表記中の第二水準の漢字をひらがな化することにより前記表記バリエーションを生成するルール、および、入力される表記中の訓読みの漢字をひらがな化することにより前記表記バリエーションを生成するルールのうち少なくともいずれかを含む請求項２３または２４記載のプログラム。
前記基準ルールは、
入力される表記中に和語動詞を表す漢字が含まれているときに、その連用語尾に相当するひらがなを挿入して前記表記バリエーションを生成するルール、その連用語尾に相当するひらがなを表記から削除して前記表記バリエーションを生成するルール、および、その漢字に対応する読みの最後のひらがなをその漢字の直後に挿入して前記表記バリエーションを生成するルールのうち少なくともいずれかを含む請求項２３から２５のいずれか１項記載のプログラム。
前記基準ルールは、
表記とともに追加情報として品詞の情報が入力されると、前記表記中に自立語があれば該自立語の表記バリエーションを生成し、機能語があれば該機能語の表記バリエーションを生成しない請求項２３から２６のいずれか１項記載のプログラム。
採用の禁止された表記バリエーションを示す展開禁止語リストを前記記憶部に予め格納するステップと、
前記表記バリエーションが前記展開禁止語リストにあるか否かの情報を前記採否判定用情報に登録するステップと、
を有する請求項２３から２７のいずれか１項記載のプログラム。
表記バリエーションについての文書中における出現頻度を示す情報を含む前記言語情報を予め格納するステップと、
前記出現頻度を示す情報を前記表記バリエーションの前記採否判定用情報に登録するステップと、
を有する請求項２３から２７のいずれか１項記載のプログラム。
表記バリエーションの利用可能性をランク付けした情報を含む前記言語情報を予め格納するステップと、
前記ランク付けした情報を前記表記バリエーションの前記採否判定用情報に登録するステップと、
を有する請求項２３から２７のいずれか１項記載のプログラム。
前記表記バリエーションの先頭または末尾が機能語であるとき、
前記表記バリエーションの先頭または末尾が機能語である旨の情報を前記採否判定用情報に登録するステップを有する請求項２３から２７のいずれか１項記載のプログラム。
前記表記バリエーションがひらがなで、かつ該表記バリエーションの文字数が所定の数よりも小さいとき、
前記表記バリエーションの文字数が所定の数よりも小さい旨の情報を前記採否判定用情報に登録するステップを有する請求項２３から２７のいずれか１項記載のプログラム。
前記表記バリエーションに対して前記採否判定用情報に基づいて採用度を求める請求項２３から３２のいずれか１項記載のプログラム。
文字列からなる表記についての異なる表記である表記バリエーションを辞書に登録する処理をコンピュータに実行させるためのプログラムであって、
見出しと該見出しの読みと該見出しの辞書登録情報が入力されると、該見出しおよび該見出しの読みとともに該辞書登録情報を前記記憶部の前記辞書に登録するステップと、
入力された見出しを前記表記として請求項２３から請求項３３のいずれか１項記載のプログラムにより前記表記バリエーションを生成するステップと、
採用対象の表記バリエーションを元の見出しと該見出しの読みと該見出しの辞書登録情報とともに前記辞書に登録するステップと、
を有する処理を前記コンピュータに実行させるためのプログラム。
生成した表記バリエーションの全てを採用対象とする請求項３４記載のプログラム。
前記表記バリエーションとともに前記採否判定用情報を出力部に出力させるステップを有する請求項３４記載のプログラム。
前記出力部に出力させる表記バリエーションの数および並び順の少なくともいずれかを含む出力フォーマット情報を予め記憶部に格納するステップと、
前記表記バリエーションを前記出力部に出力させるステップで、前記採用判定用情報を参照して前記出力フォーマット情報にしたがって該表記バリエーションを該出力部に出力させる請求項３６記載のプログラム。
前記表記バリエーションの文書中における出現頻度の情報を該表記バリエーションに付与された前記採否判定用情報に予め格納するステップと、
前記出現頻度が予め決められた基準値よりも大きい表記バリエーションを出力部に出力させるステップと、
を有する請求項３４記載のプログラム。
前記表記バリエーションを前記出力部に出力させるステップで、前記出現頻度が予め決められた基準値よりも大きい表記バリエーションに所定の印を付けて前記出力部に出力させる請求項３８記載のプログラム。
前記表記バリエーションを前記出力部に出力させるステップで、該表記バリエーションが前記辞書に登録された見出しに一致すれば、該表記バリエーションを前記出力部に出力させない請求項３６から３９のいずれか１項記載のプログラム。
前記出力部に出力された表記バリエーションに対して採用する旨の指示が入力されると、該表記バリエーションを採用対象とする請求項３６から３９のいずれか１項記載のプログラム。
言語による表現について品詞に解析する処理をコンピュータに実行させるためのプログラムであって、
文字列からなる表記、その読みおよび品詞を含む情報が登録された解析用辞書と該表記についての異なる表記である表記バリエーションを見出しとして登録するための追加解析用辞書を予め記憶部に格納するステップと、
前記表記について請求項２３から請求項３３のいずれか１項記載のプログラムにより前記表記バリエーションを生成するステップと、
前記表記バリエーションを前記追加解析用辞書に登録するステップと、
前記表現が入力されると、前記解析用辞書および前記追加解析用辞書の少なくともいずれか一方を用いて該表現を単語に分解して各単語に品詞を付与する形態素解析を行うステップと、
前記形態素解析の結果を出力部に出力させるステップと、
を有する処理を前記コンピュータに実行させるためのプログラム。
前記形態素解析を行うステップで、前記解析用辞書を用いて形態素解析を行い、
前記形態素解析の結果を出力部に出力させた後、解析をやり直す旨の指示が入力されると、前記追加解析用辞書を用いて形態素解析を行う請求項４２記載のプログラム。
前記見出しについて利用可能性を示すコストの情報を前記追加解析用辞書に予め登録するステップを有し、
形態素解析を行うステップで、分解した単語に一致する見出しを前記追加解析用辞書で検索し、該単語に一致する見出しとともに登録されたコストを参照し、該単語をそのまま採用して品詞を付与するか否かを決定する請求項４２または４３記載のプログラム。