JP2012118720A

JP2012118720A - 言語処理装置、音声合成装置、言語処理方法及び言語処理プログラム

Info

Publication number: JP2012118720A
Application number: JP2010267285A
Authority: JP
Inventors: Hideki Kojima; 英樹小島
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2010-11-30
Filing date: 2010-11-30
Publication date: 2012-06-21
Anticipated expiration: 2030-11-30
Also published as: JP5541124B2

Abstract

【課題】テキストに含まれる漢字表記の他国語を正確に読み上げることを課題とする。
【解決手段】音声合成装置１０は、所定の辞書を用いて漢字を含んだ文章に形態素解析を実行することにより、文章を形態素に分割した上で各形態素に読みを付与する。さらに、音声合成装置１０は、形態素解析の結果から漢字表記の未知語を抽出する。さらに、音声合成装置１０は、漢字表記の未知語が辞書に載る国語とは異なる他国語である確からしさを表す他国語スコアを算出する。さらに、音声合成装置１０は、他国語スコアに基づいて、漢字表記の未知語がいずれの国の単語であるのかを判別する。さらに、音声合成装置１０は、判別結果に応じて漢字表記の未知語の読みを生成する。
【選択図】図１

Description

本発明は、言語処理装置、音声合成装置、言語処理方法及び言語処理プログラムに関する。

自然言語処理が各種のマンマシンインタフェース（man machine interface）に組み込まれている。一態様としては、コンピュータ（computer）にテキスト（text）を音声出力させる場合、いわゆるテキストの読み上げに自然言語処理が利用される。テキストの読み上げを実行する場合には、テキストに含まれる文章に形態素解析を行って文章を形態素に分割した上で各形態素に読みを付与する。このようにして形態素解析を実行することによって、テキストとして入力された文字列から表音文字列が生成される。

ここで、一例として、漢字かな混じり文から表音文字列が生成される場合を想定する。このような「漢字かな混じり文」の中には、複数の読みを持つ単語が含まれる場合がある。かかる単語を適切に読み分けるための技術として、共起関係を用いて単語の読み分けを行う言語処理装置が開示されている。例えば、共起関係を用いて「米」という単語を読み分ける場合には、言語処理装置は、「米」という単語が農業関連の単語とともに出現する場合には「こめ」を付与し、国際関連の単語とともに出現する場合には「べい」を付与する。このような言語処理装置の他、中国漢字テーブルや韓国漢字テーブルを用いて、カナ漢字変換辞書を生成したり、人名検索システムを構築したりする人名漢字処理システムも開示されている。

特開２００１−１８４３４５号公報

しかしながら、上記の従来技術では、テキストの中に漢字表記の他国語が含まれる場合に、他国語を正確に読み上げることができないという問題がある。

例えば、上記の言語処理装置は、共起関係を用いて日本語として適切な読みを選択するものに過ぎない。このため、日本語のテキストの中に漢字表記の中国語、韓国語や台湾語が含まれていたとしても、いずれの文字列が他国語であるのかを判別することはできない。よって、上記の言語処理装置を用いてテキストの読み上げを行う場合には、他国語の文字列に誤った日本語の読みを付与してしまう場合もある。

さらに、上記の人名漢字処理システムで構築されたカナ漢字変換辞書を形態素解析に使用したとしても、テキストに含まれる文章のうちいずれの文字列が他国語であるかは依然として判別できない。加えて、テキストにどのような他国語の単語が文字列として含まれるかは未知であり、国ごとに存在する単語の数にも際限がない。よって、上記のカナ漢字変換辞書に必要な他国語の単語を全て登録するのは現実的には困難である。

開示の技術は、上記に鑑みてなされたものであって、テキストに含まれる漢字表記の他国語を正確に読み上げることができる言語処理装置、音声合成装置、言語処理方法及び言語処理プログラムを提供することを目的とする。

本願の開示する言語処理装置は、所定の辞書を用いて漢字を含んだ文章に形態素解析を実行することにより、前記文章を形態素に分割した上で各形態素に読みを付与する解析部を有する。さらに、前記言語処理装置は、前記解析部による形態素解析の結果から漢字表記の未知語を抽出する抽出部を有する。さらに、前記言語処理装置は、前記抽出部によって抽出された漢字表記の未知語が前記辞書に載る国語とは異なる他国語である確からしさを表す他国語スコアを算出する算出部を有する。さらに、前記言語処理装置は、前記算出部によって算出された他国語スコアに基づいて、前記漢字表記の未知語がいずれの国の単語であるのかを判別する判別部を有する。さらに、前記言語処理装置は、前記判別部による判別結果に応じて、前記漢字表記の未知語の読みを生成する読み生成部を有する。

本願の開示する言語処理装置の一つの態様によれば、テキストに含まれる漢字表記の他国語を正確に読み上げることができるという効果を奏する。

図１は、実施例１に係る音声合成装置の構成を示す図である。図２は、形態素辞書記憶部に記憶される情報の構成例を示す図である。図３Ａは、共起辞書記憶部に記憶される中国語用の共起辞書の構成例を示す図である。図３Ｂは、共起辞書記憶部に記憶される韓国語用の共起辞書の構成例を示す図である。図４は、日本語辞書記憶部に記憶される情報の構成例を示す図である。図５は、他国語辞書記憶部によって記憶される韓国語用の漢字読み辞書の構成例を示す図である。図６は、共起辞書の作成方法を説明するための図である。図７は、アクセント付与の一例を示す図である。図８は、実施例１に係る読み生成処理の手順を示すフローチャートである。図９は、実施例１に係る中国語スコア算出処理の手順を示すフローチャートである。図１０は、実施例２に係る音声合成装置の構成を示すブロック図である。図１１は、単漢字辞書記憶部に記憶される情報の構成例を示す図である。図１２は、単漢字辞書の作成方法を説明するための図である。図１３は、実施例２に係る中国語スコア算出処理の手順を示すフローチャートである。図１４は、実施例３に係る言語処理プログラムを実行するコンピュータの一例について説明するための図である。

以下に、本願の開示する言語処理装置、音声合成装置、言語処理方法及び言語処理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。そして、各実施例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

［音声合成装置の構成］
図１は、実施例１に係る音声合成装置の構成を示す図である。図１に示す音声合成装置１０は、入力されたテキスト（text）を音声出力する処理、いわゆるテキストの読み上げを実行するものであり、とりわけテキストの中に含まれる漢字表記の他国語を正確に読み上げるものである。

すなわち、本実施例に係る音声合成装置１０は、テキストの中に含まれる漢字表記の未知語が日本語以外のいずれの他国語であるのかを他国語スコアにより判別した上で未知語の読みを生成する。それゆえ、本実施例に係る音声合成装置１０では、漢字表記の未知語が他国語である確からしさを他国語スコアとして評価した上で他国語スコアが高い他国語の読みを未知語の読みとして生成できる。このため、本実施例に係る音声合成装置１０では、日本語のテキストの中に漢字表記の中国語、韓国語や台湾語などの他国語が含まれていたとしても、他国語の文字列に誤った日本語の読みを付与することを防止できる。よって、本実施例に係る音声合成装置１０によれば、テキストに含まれる漢字表記の他国語を正確に読み上げることが可能になる。

なお、図１の例では、テキストの読み上げ機能をパーソナルコンピュータ（ＰＣ：Personal Computer）に実装する場合を想定して以下の説明を行うが、開示の装置はこれに限らず、あらゆる情報処理装置に適用できる。かかる情報処理装置の一例としては、携帯電話機、ＰＨＳ（Personal Handyphone System）、ＰＤＡ（Personal Digital Assistant）やカーナビゲーションシステム（car navigation system）などが挙げられる。

図１に示す音声合成装置１０は、受付部１１と、形態素辞書記憶部１２と、共起辞書記憶部１３と、日本語辞書記憶部１４ａと、他国語辞書記憶部１４ｂと、コーパス記憶部１５ａと、作成部１５とを有する。さらに、音声合成装置１０は、言語処理部１６と、韻律生成部１７と、合成部１８と、出力部１９とを有する。なお、音声合成装置１０は、図１に示した機能部以外にも既知のコンピュータが有する各種の機能部を有するものとする。一例としては、キーボード（keyboard）やマウス（mouse）などの入力デバイス（device）が挙げられる。他の一例としては、モニタ（monitor）、ディスプレイ（display）やタッチパネル（touch panel）などの表示デバイスが挙げられる。更なる一例としては、外部装置との間で通信を行うためのインタフェース（interface）が挙げられる。

受付部１１は、テキストの入力を受け付ける処理部である。一例としては、受付部１１は、図示しないブラウザ（web browser）によって取得されたウェブページ（web page）のうちテキストデータ（text data）を入力テキストとして受け付ける。他の一例としては、受付部１１は、図示しない入力デバイスを介して指定されたテキストファイルを入力テキストとして受け付ける。更なる一例としては、受付部１１は、図示しないアプリケーションプログラム（application program）からフック（hook）したデータをテキストデータに変換した上で入力テキストとして受け付ける。

また、受付部１１は、受け付けた入力テキストを後述の言語処理部１６によって処理を実行させる単位に分割する。一例としては、受付部１１は、句点、疑問符や感嘆符などの区切り記号を検出する度に入力テキストに含まれる文字列を区切ることにより、入力テキストを１文ずつ後段の言語処理部１６へ出力する。なお、ここでは、後述の言語処理部１６に１文ずつ出力する場合を想定して以下の説明を行うが、文字数やデータサイズなどの任意の単位で入力テキストを後段の言語処理部１６へ出力できる。

形態素辞書記憶部１２は、後述の解析部１６ａによる形態素解析に使用される辞書を記憶する記憶部である。一態様としては、形態素辞書記憶部１２は、形態素および読みを対応付けて記憶する。ここで言う「形態素」とは、文章の要素のうち意味を持つ最小の単位を指す。なお、形態素辞書記憶部１２に記憶された「読み」は、後述の抽出部１６ｂによって未知語として抽出されなかった形態素や後述の判別部１６ｄによって漢字表記の未知語が日本語であると判別された場合に採用される。

図２は、形態素辞書記憶部に記憶される情報の構成例を示す図である。図２の例では、形態素「中国」を「チューゴク」と読み、形態素「の」を「ノ」と読み、形態素「を」を「オ」と読み、また、形態素「訪問」を「ホーモン」と読むことを示す。さらに、図２の例では、形態素「する」を「スル」と読み、形態素「成」を「セイ」と読み、形態素「都」を「ミヤコ」と読み、形態素「釜」を「カマ」と読み、また、形態素「山」を「ヤマ」と読むことを示す。このうち、「成」、「都」、「釜」、「山」は、後述の解析部１６ａによって他の漢字とともに述語を形成しない単漢字であると形態素解析された場合には、後述の抽出部１６ｂによって未知語として抽出される。なお、図２に示した形態素の辞書は、あくまでも一例であり、あらゆる品詞の読みを任意の個数登録できる。

共起辞書記憶部１３は、他国語および日本語の共起関係が定義された共起辞書を記憶する記憶部である。かかる共起辞書は、他国語スコアの算出に用いられるものであり、後述の抽出部１６ｂによって未知語が抽出された文章に含まれる単語に対応付けられた共起語の対数尤度が後述の算出部１６ｃによって他国語スコアの算出に用いられる。

一態様としては、共起辞書記憶部１３は、共起語の種類ごとに表記および対数尤度を対応付けて記憶する。ここで言う「共起語の種類」とは、共起辞書の作成時に中国語の名詞が出現する文章に含まれる単語が共起語として共起辞書に登録されるにあたってその単語が中国語の名詞に対して占めていた位置に関する種類を指す。例えば、中国語の名詞の直後以外の位置に単語が出現していた場合には、共起語の種類は「一般共起語」として分類される。また、中国語の名詞の直後に単語が出現していた場合には、共起語の種類は「直後の語」として分類される。また、「対数尤度」は、共起語とともに文章に出現している未知語が他国語である確からしさを表す。

ここで、共起辞書の一例として、中国語用の共起辞書を例示する。図３Ａは、共起辞書記憶部に記憶される中国語用の共起辞書の構成例を示す図である。図３Ａの例では、一般共起語として「中国」、「主席」、「来日」が登録されており、各々の対数尤度が「2.322」、「1.874」、「1.246」であることを示す。さらに、図３Ａの例では、直後の語として「中主席」が登録されており、その対数尤度が「4.822」であることを示す。なお、詳細は図６を用いて後述するが、共起辞書の作成時には、一般共起語よりも直後の語の方が中国語の名詞との関連性が高いので、直後の語の対数尤度の方が一般共起語の対数尤度よりも大きい重み付けがなされて共起辞書に登録される。

さらに、共起辞書の一例として、韓国語用の共起辞書を例示する。図３Ｂは、共起辞書記憶部に記憶される韓国語用の共起辞書の構成例を示す図である。図３Ｂの例では、一般共起語として「韓国」、「北朝鮮」、「来日」が登録されており、各々の対数尤度が「2.401」、「2.521」、「1.312」であることを示す。さらに、図３Ｂの例では、直後の語として「韓国」が登録されており、その対数尤度が「4.972」であることを示す。なお、ここでは、中国語用および韓国語用の共起辞書を例示したが、それ以外にも台湾語のように漢字を含んだ国語であれば任意の他国語の共起辞書を準備できる。

日本語辞書記憶部１４ａは、日本語の音読み辞書を記憶する記憶部である。かかる日本語の音読み辞書は、後述の判別部１６ｄによって漢字表記の未知語が中国語であると判別された場合に、未知語の読みとして日本語の音読みを付与するために、後述の読み生成部１６ｅによって用いられる。ここで、後述の読み生成部１６ｅによって未知語として日本語の音読みを生成させるか、あるいは中国語の読みを生成させるかは、図示しない入力デバイスを介して漢字を中国語で読む「中国語読みモード」のＯＮまたはＯＦＦの指定により選択できる。

一態様として、日本語辞書記憶部１４ａは、漢字および音読みを対応付けて記憶する。図４は、日本語辞書記憶部に記憶される情報の構成例を示す図である。図４の例では、漢字「成」の音読みが「セー」であり、漢字「都」の音読みが「ト」であり、漢字「李」の音読みが「リ」であり、また、漢字「劉」の音読みが「リュウ」であることを示す。なお、図４に示した日本語の音読み辞書は、あくまでも一例であり、あらゆる漢字の読みを任意の個数登録できる。

他国語辞書記憶部１４ｂは、他国語の漢字の読みに関する辞書を記憶する記憶部である。かかる他国語辞書は、後述の判別部１６ｄによって漢字表記の未知語が日本語以外の他国語であると判別された場合に後述の読み生成部１６ｅによって用いられる。なお、漢字表記の未知語が中国語であると判別された場合には、「中国語読みモード」がＯＮに指定されていることを条件に他国語辞書記憶部１４ｂが後述の読み生成部１６ｅによって使用される。

ここで、他国語辞書の一例として、韓国語用の漢字読み辞書を例示する。図５は、他国語辞書記憶部によって記憶される韓国語用の漢字読み辞書の構成例を示す図である。図５の例では、漢字「金」の韓国語での読みが「キム」であり、漢字「釜」の韓国語での読みが「プ」であり、漢字「山」の韓国語での読みが「サン」であり、また、漢字「李」の韓国語での読みが「イ」であることを示す。なお、図５に示した韓国語用の漢字読み辞書は、あくまでも一例であり、あらゆる漢字の読みを任意の個数登録できる。また、ここでは、漢字および読みを対応付けて記憶する例を説明したが、さらに読みのアクセントが対応付けて記憶されていてもよい。また、ここでは、韓国語用の漢字読み辞書を例示したが、中国語用の漢字読み辞書も同様の構成により実現できる。

なお、本実施例では、漢字表記の未知語が中国語である場合に「中国語読みモード」がＯＮ又はＯＦＦであるか否かにより未知語の読みを生成するのに使用する辞書を日本語の音読み辞書と他国語辞書との間で切り替える場合を例示したが、この例に限定されない。例えば、日本語の音読み辞書または他国語辞書のいずれかを排他的に使用することとしてもよく、この場合には使用しない方の辞書を保持せずともよくなる。

コーパス記憶部１５ａは、日本語のコーパス（corpus）、すなわち大規模な言語資料を記憶する記憶部である。かかるコーパスは、後述の作成部１５によって共起辞書が作成される場合に使用される。このため、コーパスとして準備する文章の量が多いほど、後述の算出部１６ｃによって算出される他国語スコアの精度を高めることができる。また、共起辞書を作成するには、他国語および日本語が共起関係を有する文章が有効なサンプルとなる。それゆえ、コーパスには、中国語の名詞や韓国語などの他国語の名詞がより多く含まれていることが好ましい。

作成部１５は、コーパス記憶部１５ａを用いて、共起辞書を作成する処理部である。この共起辞書の作成方法を図６を用いて説明する。図６は、共起辞書の作成方法を説明するための図である。なお、図６の例では、中国語用の共起辞書および韓国語用の共起辞書を作成する場合を例示するが、台湾語のように漢字を含んだ国語の共起辞書を作成する場合にも同様に適用できる。

図６に示すように、作成部１５は、コーパス記憶部１５ａから読み出した日本語のコーパスに形態素解析を実行する（ステップＳ５１）。一例として、コーパス記憶部１５ａに「こんにちは。…中国の北京へ行きます。…北朝鮮の平壌で１７日、…」というコーパスが保持されていた場合を想定する。この場合には、作成部１５は、コーパスに含まれる各文章の形態素解析の結果として、次のような結果を得る。すなわち、作成部１５は、「こんにちは（感動詞）。…中国（名詞）・の（助詞）・北京（中国語名詞）・へ（助詞）・行き（動詞）・ます（助動詞）。…北朝鮮（名詞）・の（助詞）・平壌（韓国語名詞）・で（助詞）・１７（数詞）・日（数助詞）、…」を得る。なお、上記の括弧内の中点「・」は、形態素と形態素との区切りを指すものとする。

続いて、作成部１５は、先の形態素解析により得た結果のうち、中国語名詞を含む文章のみを抽出してデータベースを作成する（ステップＳＡ５２）。例えば、作成部１５は、中国語名詞「北京」を含む文章「中国（名詞）・の（助詞）・北京（中国語名詞）・へ（助詞）・行き（動詞）・ます（助動詞）」を抽出する。かかる文章の抽出にあたって中国語名詞を検出するには、中国語の国語辞書に載っている名詞と突き合わせすることにより検出することとしてもよいし、共起辞書の設計者による指示操作でコーパスに含まれる中国語名詞に予めマーキングさせることとしてもよい。なお、ここでは、中国語名詞を含む文章として１つの文章を例示したが、実際には多数の文章が抽出されるものとする。

そして、作成部１５は、中国語名詞を含む文章のデータベースから、中国語名詞の直後の語の集合、すなわち直後の語の集合を生成する（ステップＳＡ５３−１）。例えば、直後の語の集合としては、上記の１文の例では「へ（助詞）」が生成される他、「に（助詞）…・中主席（名詞）・中首相（名詞）…」などが生成されるものとする。

また、作成部１５は、中国語名詞を含む文章のデータベースから、中国語名詞およびその直後の語を除く単語の集合、すなわち一般共起語の集合を生成する（ステップＳＡ５３−２）。例えば、一般共起語の集合としては、「…中国（名詞）・の（助詞）・行き（動詞）・ます（助動詞）…」などが生成される。

続いて、作成部１５は、先に生成した２つの集合ごとに各単語が自身の所属する集合に出現する頻度、以下「出現頻度」と記載を算出する（ステップＳＡ５４−１及びステップＳＡ５４−２）。図６の例で言えば、直後の語「へ（助詞）」の出現頻度として「2012（回）」が算出され、直後の語「に（助詞）」の出現頻度として「1893（回）」が算出される。さらに、直後の語「中主席（名詞）」の出現頻度として「203（回）」が算出され、直後の語「中首相（名詞）」の出現頻度として「159（回）」が算出される。一方、一般共起語「が（助詞）」の出現頻度として「4183（回）」が算出され、また、一般共起語「は（助詞）」の出現頻度として「4024（回）」が算出される。さらに、一般共起語「中国（名詞）」の出現頻度として「176（回）」が算出され、一般共起語「主席（名詞）」の出現頻度として「165（回）」が算出され、一般共起語「来日（名詞）」の出現頻度として「162（回）」が算出される。なお、ここでは、出現頻度として単語が出現する回数を算出する場合を例示したが、各単語が自身の所属する集合に出現する割合を出現頻度として算出することとしてもよい。

ここで、直後の語および一般共起語の出現頻度の上位に現れる単語は、助詞や助動詞などの付属語であり、これらの付属語は中国語名詞との相関性は低い。よって、以降の処理では、直後の語の集合および一般共起語の集合のうち品詞が名詞である単語を共起辞書に載せる対象とする。これによって、中国語名詞と相関性が高い単語を優先して共起辞書に登録でき、それを用いて算出される他国語スコアの信頼性を高めることができる。

そして、作成部１５は、直後の語および一般共起語の集合ごとに各単語の対数尤度を算出する（ステップＳＡ５５−１及びステップＳＡ５５−２）。かかる対数尤度には、一例として、算出式「対数尤度＝ｌｏｇ（出現頻度＊１００％／文章の数）」が用いられる。上記の算出式の「対数の底」には、任意のものを適用できるが、一例としては、自然対数を用いるのが好ましい。また、上記の算出式の「文章の数」とは、中国語名詞を含む文章のデータベースに格納されている文章の数を指す。図６の例で言えば、直後の語「中主席（名詞）」の対数尤度として「2.411」が算出され、直後の語「中首相（名詞）」の対数尤度として「1.156」が算出される。一方、一般共起語「中国（名詞）」の対数尤度として「2.322」が算出され、一般共起語「主席（名詞）」の対数尤度として「1.874」が算出され、一般共起語「来日（名詞）」の対数尤度として「1.246」が算出される。

その後、作成部１５は、直後の語の対数尤度および一般共起語の対数尤度のうち直後の語の対数尤度に一般共起語の対数尤度よりも大きい重みを付与する重み付け処理を行った上で中国語用の共起辞書として共起辞書記憶部１３に登録する（ステップＳＡ５６）。かかる重み付けの一例としては、作成部１５は、直後の語の対数尤度の重みを一般共起語の対数尤度の２倍とし、直後の語の対数尤度に「２」を乗算する。かかる重み付けによって、中国語名詞との相関性が一般共起語よりも高い直後の語の対数尤度が他国語スコアの算出に反映される割合が高まる結果、他国語スコアの信頼性を高めることができる。なお、対数尤度の重み付けは、上記の例には限定されない。すなわち、直後の語の対数尤度に付与する重みが一般共起語の対数尤度に付与する重みよりも高ければよく、それぞれの対数尤度への重みには任意の値を付与できる。

このように、上記のステップＳ５１〜ステップＳＡ５６までの処理により、図３Ａに示した中国語用の共起辞書が作成される。これによって、漢字表記の未知語が中国語である確からしさを評価するための評価基準を定義することができる。なお、上記のステップＳＡ５３−１〜ＳＡ５５−１の処理と、上記のステップＳＡ５３−２〜ＳＡ５５−２の処理とは、両者を並列して実行することもできるし、いずれを先または後として処理を実行することとしてもかまわない。

一方、作成部１５は、韓国語用の共起辞書についても中国語用の共起辞書と同様に作成する。これを説明すると、作成部１５は、先の形態素解析により得た結果のうち、韓国語名詞を含む文章のみを抽出してデータベースを作成する（ステップＳＢ５２）。例えば、作成部１５は、韓国語名詞「平壌」を含む文章「…北朝鮮（名詞）・の（助詞）・平壌（韓国語名詞）・で（助詞）・１７（数詞）・日（数助詞）、…」を抽出する。かかる文章の抽出にあたって韓国語名詞を検出するには、韓国語の国語辞書に載っている名詞と突き合わせすることにより検出することとしてもよいし、共起辞書の設計者による指示操作でコーパスに含まれる韓国語名詞に予めマーキングさせることとしてもよい。なお、ここでは、韓国語名詞を含む文章として１つの文章を例示したが、実際には多数の文章が抽出されるものとする。

そして、作成部１５は、韓国語名詞を含む文章のデータベースから、韓国語名詞の直後の語の集合、すなわち直後の語の集合を生成する（ステップＳＢ５３−１）。例えば、直後の語の集合としては、上記の１文の例では「で（助詞）」が生成される他、「へ（助詞）…・韓国（名詞）・総書記（名詞）…」などが生成されるものとする。

また、作成部１５は、韓国語名詞を含む文章のデータベースから、韓国語名詞およびその直後の語を除く単語の集合、すなわち一般共起語の集合を生成する（ステップＳＢ５３−２）。例えば、一般共起語の集合としては、「…北朝鮮（名詞）・の（助詞）・１７（数詞）・日（数助詞）、…」などが生成される。

続いて、作成部１５は、先に生成した２つの集合ごとに各単語の出現頻度を算出する（ステップＳＢ５４−１及びステップＳＢ５４−２）。図６の例で言えば、直後の語「で（助詞）」の出現頻度として「1671（回）」が算出され、直後の語「へ（助詞）」の出現頻度として「1422（回）」が算出される。さらに、直後の語「韓国（名詞）」の出現頻度として「160（回）」が算出され、直後の語「総書記（名詞）」の出現頻度として「133（回）」が算出される。一方、一般共起語「の（助詞）」の出現頻度として「2977（回）」が算出され、また、一般共起語「は（助詞）」の出現頻度として「2889（回）」が算出される。さらに、一般共起語「韓国（名詞）」の出現頻度として「156（回）」が算出され、一般共起語「北朝鮮（名詞）」の出現頻度として「161（回）」が算出され、一般共起語「来日（名詞）」の出現頻度として「128（回）」が算出される。なお、ここでも、以降の処理では、直後の語の集合および一般共起語の集合のうち品詞が名詞である単語を共起辞書に載せる対象とされる。

そして、作成部１５は、直後の語および一般共起語の集合ごとに各単語の対数尤度を算出する（ステップＳＢ５５−１及びステップＳＢ５５−２）。図６の例で言えば、直後の語「韓国（名詞）」の対数尤度として「2.486」が算出され、直後の語「総書記（名詞）」の対数尤度として「1.475」が算出される。一方、一般共起語「韓国（名詞）」の対数尤度として「2.401」が算出され、一般共起語「北朝鮮（名詞）」の対数尤度として「2.521」が算出され、一般共起語「来日（名詞）」の対数尤度として「1.312」が算出される。

その後、作成部１５は、直後の語の対数尤度および一般共起語の対数尤度のうち直後の語の対数尤度に一般共起語の対数尤度よりも大きい重みを付与する重み付け処理を行った上で韓国語用の共起辞書として共起辞書記憶部１３に登録する（ステップＳＢ５６）。かかる重み付けの一例としては、作成部１５は、上記の中国語用の共起辞書の場合と同様に、直後の語の対数尤度の重みを一般共起語の対数尤度の２倍とし、直後の語の対数尤度に「２」を乗算する。

このように、上記のステップＳ５１〜ステップＳＢ５６までの処理により、図３Ｂに示した韓国語用の共起辞書が作成される。これによって、漢字表記の未知語が韓国語である確からしさを評価するための評価基準を定義することができる。なお、上記のステップＳＢ５３−１〜ＳＢ５５−１の処理と、上記のステップＳＢ５３−２〜ＳＢ５５−２の処理とは、両者を並列して実行することもできるし、いずれを先または後として処理を実行することとしてもかまわない。また、中国語用の共起辞書を作成するステップＳＡ５２〜ＳＡ５６の処理と、韓国語用の共起辞書を作成するステップＳＢ５２〜ＳＢ５６の処理とは、両者を並列して実行することもできるし、いずれを先または後として処理を実行することとしてもかまわない。

図１の説明に戻り、言語処理部１６は、受付部１１によって受け付けられた入力テキストに自然言語処理を実行する処理部である。この言語処理部１６は、図１に示すように、解析部１６ａと、抽出部１６ｂと、算出部１６ｃと、判別部１６ｄと、読み生成部１６ｅと、付与部１６ｆと、表音生成部１６ｇとをさらに有する。

このうち、解析部１６ａは、形態素辞書記憶部１２を用いて、入力テキストに含まれる文章に形態素解析を実行することにより、文章を形態素に分割した上で各形態素に読みを付与する処理部である。一例として、受付部１１から「中国の成都を訪問する」という入力テキストが入力された場合を想定する。この場合に、解析部１６ａは、図２に示した形態素辞書から入力テキストに含まれる文字列と一致する形態素を検索して、入力テキストを「中国」、「の」、「成」、「都」、「を」、「訪問」、「する。」という形態素に分割する。このとき、解析部１６ａは、入力テキストに含まれる文字列のうち「成」及び「都」は実際には「成都」という２文字の単語であるが、形態素辞書には登録されてないので、これらの形態素が単漢字であると認識する。その上で、解析部１６ａは、各形態素に読みを付与し、「中国［チューゴク］・の［ノ］・成（単漢字）［セー］・都（単漢字）［ミヤコ］・を［オ］・訪問［ホウモン］・する［スル］。」という形態素解析の結果を得る。なお、上記の形態素解析には、既知のあらゆる形態素の解析手法を適用することができる。

抽出部１６ｂは、解析部１６ａによる形態素解析の結果から未知語を抽出する処理部である。一例としては、抽出部１６ｂは、入力テキストに含まれる形態素のうち、解析部１６ａによって単漢字であると解析された文字を漢字表記の未知語として抽出する。上記の入力テキストの例で言えば、抽出部１６ｂは、「成」及び「都」が単漢字として認識されているので、これら「成都」を漢字表記の未知語として抽出する。なお、「北京［ペキン］」や「上海（シャンハイ）」などのように、外来語として定着している単語については、形態素辞書に登録されているものとし、未知語として抽出されないものとする。

算出部１６ｃは、共起辞書記憶部１３を用いて、抽出部１６ｂによって抽出された漢字表記の未知語が他国語である確からしさを表す他国語スコアを算出する処理部である。これを説明すると、算出部１６ｃは、入力テキストに含まれる形態素の中に共起辞書に登録されている共起語が存在するか否か、すなわち漢字表記の未知語が他国語の名詞と共起関係を持ち得るか否かを判定する。このとき、共起辞書に登録されている共起語が存在する場合には、算出部１６ｃは、共起語に対応付けられている対数尤度を用いて、漢字表記の未知語の他国語スコアを算出する。そして、算出部１６ｃは、入力テキストに含まれる形態素の中に共起辞書に登録されている共起語がなくなるまで、他国語スコアの算出を繰り返し、新たに算出した他国語スコアを前回までに累積加算していた他国語スコアにさらに累積加算する。なお、他国語スコアの算出は、中国語用の共起辞書および韓国語用の共起辞書ごと、すなわち他国語ごとに実行される。以下では、中国語に関する他国語スコアを「中国語スコア」と呼び、韓国語に関する他国語スコアを「韓国語スコア」と呼ぶ。

かかる他国語スコアは、一例として、算出式「他国語スコア＝共起語の対数尤度／未知語から形態素までの距離」を用いて算出される。ここで、上記の算出式において共起語の対数尤度を未知語から形態素までの距離で除すこととしたのは、未知語および形態素の距離が近いほど両者の相関性が強く、未知語が他国語である可能性がより高まるからである。なお、共起辞書に登録されている共起語が存在しない場合には、他国語スコアはゼロと算出されるものとする。また、共起辞書に一般共起語および直後の語の両方の共起語が存在する場合には、いずれか一方、例えば直後の語の対数尤度を他国語スコアに使用することとすればよい。

上記のテキストの例で言えば、入力テキストに含まれる形態素の中に中国語用の共起辞書に一般共起語として登録されている「中国」が存在する。このため、算出部１６ｃは、上記の他国語スコアの算出式に、一般共起語「中国」に対応付けられている対数尤度「2.322」と、入力テキストに含まれる未知語「成都」から形態素「中国」までの距離「2」とを代入する。これによって、算出部１６ｃは、未知語「成都」の中国語スコア「1.161」を算出する。一方、入力テキストに含まれる形態素の中に韓国語用の共起辞書に登録されている一般共起語及び直後の語は存在しない。よって、算出部１６ｃは、未知語「成都」の韓国語スコア「0.000」を算出する。

また、未知語から形態素までの距離は、入力テキストに含まれる形態素のうち任意の形態素を原点とし、他の形態素に座標を与えることにより算出できる。一例としては、文頭の形態素を原点とし、原点から形態素を１つ進むにつき座標の値を１つインクリメントすることにより、各形態素に座標位置を与えることができる。このようにして形態素に座標を与える場合には、未知語と形態素の位置関係によっては距離の値が負の値となってしまうので、絶対値を採るのが好ましい。上記のテキストの例で言えば、形態素「中国」の座標が「０」、未知語「成都」の座標が「２」であるので、算出部１６ｃは、未知語「成都」から形態素「中国」までの距離を｜２−０｜を計算することにより「２」と算出する。なお、距離の算出方法は、上記の方法に限定されず、未知語から目的の形態素までに到達するまでの形態素の数を計測することとしてもかまわない。

判別部１６ｄは、算出部１６ｃによって算出された他国語スコアに基づいて、漢字表記の未知語がいずれの国の単語であるのかを判別する処理部である。これを説明すると、判別部１６ｄは、中国語スコアと韓国語スコアとを比較する。このとき、中国語スコアの方が韓国語スコアよりも高い場合には、判別部１６ｄは、中国語スコアと所定の閾値、例えば「1.000」とをさらに比較する。そして、中国語スコアが閾値よりも高い場合には、漢字表記の未知語が「中国語」であると判別できる。一方、中国語スコアが閾値以下である場合には、漢字表記の未知語が「日本語」であると判別できる。また、韓国語スコアが中国語スコア以上である場合には、判別部１６ｄは、韓国語スコアと所定の閾値、例えば「1.000」とを比較する。そして、韓国語スコアが閾値よりも高い場合には、漢字表記の未知語が「韓国語」であると判別できる。一方、韓国語スコアが閾値以下である場合には、漢字表記の未知語が「日本語」であると判別できる。

上記の入力テキストの例で言えば、中国語スコアが「1.161」であり、韓国語スコアが「0.000」であり、閾値が「1.000」である。このため、中国語スコア＞閾値＞韓国語スコアとなるので、未知語「成都」は中国語であると判別できる。

なお、中国語スコア及び韓国語スコアと比較する閾値は、上記の値に限定されず、任意の値を採用できる。一例としては、入力テキストに付与されているタイトルが中国語用または韓国語用の共起辞書に登録されている場合には、中国語または韓国語に関する文章が入力される可能性が高くなるので、登録されていない場合よりも該当国の閾値を下げることもできる。また、中国語スコアと韓国語スコアとの間で異なる閾値を採用できるのも言うまでもない。

読み生成部１６ｅは、判別部１６ｄによる判別結果に応じて、漢字表記の未知語の読みを生成する処理部である。これを説明すると、読み生成部１６ｅは、「中国語スコア＞韓国語スコア」かつ「中国語スコア＞閾値」である場合、すなわち未知語が中国語であると判別された場合に、「中国語読みモード」がＯＦＦであるか否かをさらに判定する。このとき、「中国語読みモード」がＯＦＦである場合には、読み生成部１６ｅは、日本語辞書記憶部１４ａを用いて、未知語に対応する単漢字ごとに日本語の音読みを生成する。一方、「中国語読みモード」がＯＮである場合には、読み生成部１６ｅは、他国語辞書記憶部１４ｂに記憶された中国語用の漢字読み辞書を用いて、未知語に中国語読みを生成する。

また、「韓国語スコア≧中国語スコア」かつ「韓国語スコア＞閾値」である場合、すなわち未知語が韓国語であると判別された場合に、読み生成部１６ｅは、他国語辞書記憶部１４ｂに記憶された韓国語用の漢字読み辞書を用いて、未知語に韓国語読みを生成する。また、「中国語スコア≦閾値」または「韓国語スコア≦閾値」である場合、すなわち未知語が日本語であると判別された場合に、読み生成部１６ｅは、未知語に新たな読みを生成せずに、解析部１６ａによる形態素解析の結果を付与部１６ｆへそのまま出力する。なお、抽出部１６ｂによって未知語が抽出されなかった場合にも、読み生成部１６ｅは、解析部１６ａによる形態素解析の結果を付与部１６ｆへそのまま出力する。

上記のテキストの例で言えば、読み生成部１６ｅは、日本語辞書記憶部１４ａによって記憶された「成［セー］」及び「都［ト］」にしたがって漢字表記の未知語「成都」に読み「セート」を生成する。このため、誤った形態素解析の結果「セーミヤコ」が未知語「成都」に付与されることを防止できる。

付与部１６ｆは、読み生成部１６ｅによって生成された漢字表記の未知語の読みにアクセント（accent）を付与する処理部である。一例としては、付与部１６ｆは、漢字表記の未知語の後ろから２文字目の第１モーラ（mora）、すなわち１短音節にアクセントを付与する。

図７は、アクセント付与の一例を示す図である。図７に示すように、未知語が「李鵬」である場合には、付与部１６ｆは、後ろから２文字目の「李［リ］」にアクセントを付与し、［リ’ホウ］とする。また、未知語が「劉備」である場合には、付与部１６ｆは、後ろから２文字目の「劉［リュウ］」の第１モーラ「リュ」にアクセントを付与し、［リュ’ウビ］とする。また、未知語が「毛沢東」である場合には、付与部１６ｆは、後ろから２文字目の「沢［タク］」の第１モーラ「タ」にアクセントを付与し、［モウタ’クトウ］とする。また、未知語が「胡錦濤」である場合には、付与部１６ｆは、後ろから２文字目の「錦［キン］」の第１モーラ「キ」にアクセントを付与し、［コキ’ントウ］とする。また、未知語が「青椒肉絲」である場合には、付与部１６ｆは、後ろから２文字目の「肉［ロウ］」の第１モーラ「ロ」にアクセントを付与し、［チンジャオロ’ウス］とする。

表音生成部１６ｇは、付与部１６ｆによって漢字表記の未知語の読みにアクセントが付与された形態素解析の結果から入力テキストの表音文字列を生成する処理部である。一例として、表音生成部１６ｇは、漢字表記の未知語の読みにアクセントが付与された漢字かな混じり文から表音文字であるカタカナの文字列を生成する。なお、抽出部１６ｂによって未知語が抽出されなかった場合、あるいは判別部１６ｄによって未知語が日本語であると判別された場合には、解析部１６ａによる形態素解析の結果から表音文字列が生成される。

韻律生成部１７は、表音生成部１６ｇによって生成された表音文字列に基づいて入力テキストに対応する韻律を生成する処理部である。ここで言う「韻律」は、ポーズ（pause）、音素の長さやイントネーション（intonation）などの喋り方の特徴の総称である。一態様としては、韻律生成部１７は、後述の合成部１８に合成させる音声、すなわち合成音声の個々の音素の長さである音素時間長や声の高さの変化パターンであるピッチパターン（pitch pattern）などの韻律を生成する。

合成部１８は、韻律生成部１７によって生成された韻律から音声波形を生成して音声を合成する処理部である。一態様としては、合成部１８は、韻律生成部１７によって生成された韻律、例えば音素時間長やピッチパターンにしたがって音声波形を生成することにより音声を人工的に合成する。

出力部１９は、音声を出力する出力部である。一例として、出力部１９は、合成部１８から入力される合成音声を出力する。かかる出力部１９の一態様としては、スピーカー（speaker）などが挙げられる。

なお、図１に示した受付部１１、作成部１５、言語処理部１６、韻律生成部１７及び合成部１８には、各種の集積回路や電子回路を採用できる。また、言語処理部１６に含まれる機能部の一部を別の集積回路や電子回路とすることもできる。例えば、集積回路としては、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）が挙げられる。また、電子回路としては、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）などが挙げられる。

また、図１に示した形態素辞書記憶部１２、共起辞書記憶部１３、日本語辞書記憶部１４ａ、他国語辞書記憶部１４ｂ及びコーパス記憶部１５ａのハードウェアには、次のようなものを適用できる。一例としては、ＲＡＭ（Random Access Memory)、ＲＯＭ（Read Only Memory）やフラッシュメモリ（flash memory）などの半導体メモリ素子を採用できる。なお、上記の５つの記憶部にハードディスク、光ディスクなどの記憶装置を採用することとしてもかまわない。

［処理の流れ］
次に、本実施例に係る音声合成装置の処理の流れを説明する。なお、ここでは、漢字表記の未知語に読みを生成する（１）読み生成処理を説明した後に、他国語スコアを算出する（２）他国語スコア算出処理を説明する。

（１）読み生成処理
図８は、実施例１に係る読み生成処理の手順を示すフローチャートである。この読み生成処理は、受付部１１によって１文の入力テキストが言語処理部１６へ入力された場合に処理が起動する。

図８に示すように、解析部１６ａは、形態素辞書記憶部１２を用いて、入力テキストに含まれる文章に形態素解析を実行する（ステップＳ１０１）。続いて、抽出部１６ｂは、入力テキストに含まれる形態素のうち、解析部１６ａによって単漢字であると解析された文字を漢字表記の未知語として抽出する（ステップＳ１０２）。

このとき、未知語が抽出されなかった場合（ステップＳ１０２否定）には、読み生成部１６ｅは、解析部１６ａによる形態素解析の結果を付与部１６ｆへそのまま出力し（ステップＳ１０３）、処理を終了する。

ここで、未知語が抽出された場合（ステップＳ１０２肯定）には、算出部１６ｃは、共起辞書記憶部１３を用いて、中国語スコア及び韓国語スコアなどの他国語スコアを算出する「他国語スコア算出処理」を実行する（ステップＳ１０４）。

その後、判別部１６ｄは、中国語スコアと韓国語スコアとを比較する（ステップＳ１０５）。このとき、中国語スコアの方が韓国語スコアよりも高い場合（ステップＳ１０５肯定）には、判別部１６ｄは、中国語スコアと所定の閾値、例えば「1.000」とをさらに比較する（ステップＳ１０６）。

そして、中国語スコアが閾値よりも高い場合（ステップＳ１０６肯定）には、漢字表記の未知語が「中国語」であると判別できる。この場合には、読み生成部１６ｅは、「中国語読みモード」がＯＦＦであるか否かをさらに判定する（ステップＳ１０７）。

このとき、「中国語読みモード」がＯＦＦである場合（ステップＳ１０７肯定）には、読み生成部１６ｅは、日本語辞書記憶部１４ａを用いて、未知語に対応する単漢字ごとに日本語の音読みを生成し（ステップＳ１０９）、処理を終了する。

一方、「中国語読みモード」がＯＮである場合（ステップＳ１０７否定）には、読み生成部１６ｅは、他国語辞書記憶部１４ｂに記憶された中国語用の漢字読み辞書を用いて、未知語に中国語読みを生成する（ステップＳ１０８）。

また、中国語スコアが閾値以下である場合（ステップＳ１０６否定）には、漢字表記の未知語が「日本語」であると判別できる。この場合には、読み生成部１６ｅは、未知語に新たな読みを生成せずに、解析部１６ａによる形態素解析の結果を付与部１６ｆへそのまま出力し（ステップＳ１０３）、処理を終了する。

また、韓国語スコアが中国語スコア以上である場合（ステップＳ１０５否定）には、判別部１６ｄは、韓国語スコアと所定の閾値、例えば「1.000」とを比較する（ステップＳ１１０）。

このとき、韓国語スコアが閾値よりも高い場合（ステップＳ１１０肯定）には、漢字表記の未知語が「韓国語」であると判別できる。この場合には、読み生成部１６ｅは、他国語辞書記憶部１４ｂに記憶された韓国語用の漢字読み辞書を用いて、未知語に韓国語読みを生成し（ステップＳ１１１）、処理を終了する。

一方、韓国語スコアが閾値以下である場合（ステップＳ１１０否定）には、漢字表記の未知語が「日本語」であると判別できる。この場合には、読み生成部１６ｅは、未知語に新たな読みを生成せずに、解析部１６ａによる形態素解析の結果を付与部１６ｆへそのまま出力し（ステップＳ１０３）、処理を終了する。

（２）他国語スコア算出処理
図９は、実施例１に係る中国語スコア算出処理の手順を示すフローチャートである。この中国語スコア算出処理は、図８に示したステップＳ１０４に対応する処理であり、抽出部１６ｂによって漢字表記の未知語が抽出された場合に処理が起動する。なお、ここでは、他国語スコアのうち中国語スコアを算出する場合を例示しているが、韓国語スコアを算出する場合も同様である。

図９に示すように、算出部１６ｃは、各種のパラメータを設定する（ステップＳ３０１）。一例としては、算出部１６ｃは、中国語スコア及びループカウンタＩをゼロに初期化するともに未知語の位置Ｊ及び文中の形態素の数Ｎに値を設定する。

そして、算出部１６ｃは、ループカウンタＩが文中の単語の数Ｎに等しくなるまで（ステップＳ３０２肯定）、下記のステップＳ３０３〜ステップＳ３０７までの処理を繰り返し実行する。

すなわち、算出部１６ｃは、Ｉ番目の形態素が中国語用の共起辞書に登録されているか否か、すなわち漢字表記の未知語が中国語の名詞と共起関係を持ち得るか否かを判定する（ステップＳ３０３）。

このとき、Ｉ番目の形態素が中国語用の共起辞書に登録されている場合（ステップＳ３０３肯定）には、算出部１６ｃは、中国語用の共起辞書からＩ番目の形態素に対応する対数尤度を抽出する（ステップＳ３０４）。そして、算出部１６ｃは、未知語から形態素までの距離ＬをループカウンタＩ−未知語の位置Ｊの絶対値、すなわち｜Ｉ−Ｊ｜を計算することにより算出する（ステップＳ３０５）。

続いて、算出部１６ｃは、算出式「中国語スコア＝Ｉ番目の形態素に対応する対数尤度／未知語から形態素までの距離Ｌ」によりＩ番目の形態素の中国語スコアを算出して「Ｉ−１」番目までに累積加算していた中国語スコアに累積加算する（ステップＳ３０６）。

そして、算出部１６ｃは、ループカウンタＩをインクリメントし（ステップＳ３０７）、上記のステップＳ３０２に移行する。なお、Ｉ番目の形態素が中国語用の共起辞書に登録されていなかった場合（ステップＳ３０３否定）には、ステップＳ３０４〜ステップＳ３０６までの処理は実行されずにループカウンタＩがインクリメントされる（ステップＳ３０７）。

その後、ループカウンタＩが文中の単語の数Ｎに等しくなった場合（ステップＳ３０２否定）には、入力テキストの全ての形態素について中国語スコアを算出し終えたことになるので、処理を終了する。

［実施例１の効果］
上述してきたように、本実施例に係る音声合成装置１０は、形態素辞書を用いて漢字を含んだ文章に形態素解析を実行することにより、文章を形態素に分割した上で各形態素に読みを付与する。さらに、音声合成装置１０は、形態素解析の結果から漢字表記の未知語を抽出する。さらに、音声合成装置１０は、漢字表記の未知語が他国語である確からしさを表す他国語スコアを算出する。さらに、音声合成装置１０は、他国語スコアに基づいて、漢字表記の未知語がいずれの国の単語であるのかを判別する。さらに、音声合成装置１０は、判別結果に応じて漢字表記の未知語の読みを生成する。

それゆえ、本実施例に係る音声合成装置１０では、漢字表記の未知語が他国語である確からしさを他国語スコアとして評価した上で他国語スコアが高い他国語の読みを未知語の読みとして生成できる。このため、本実施例に係る音声合成装置１０では、日本語のテキストの中に漢字表記の中国語、韓国語や台湾語などの他国語が含まれていたとしても、他国語の文字列に誤った日本語の読みを付与することを防止できる。よって、本実施例に係る音声合成装置１０によれば、テキストに含まれる漢字表記の他国語を正確に読み上げることが可能になる。

また、本実施例に係る音声合成装置１０は、文章に含まれる未知語以外の形態素と、他国語の名詞との間における共起関係を用いて、他国語スコアを算出する。このため、本実施例に係る音声合成装置１０によれば、漢字表記の未知語が他国語の名詞と共起関係を持ち得るか否かを他国語スコアにより評価することが可能になる。

さらに、本実施例に係る音声合成装置１０は、漢字表記の未知語の読みにアクセントを付与し、漢字表記の未知語の読みにアクセントが付与された形態素解析の結果から入力テキストの表音文字列を生成する。このため、本実施例に係る音声合成装置１０では、未知語の読みに加えてアクセントも適切に付与した上で表音文字列を生成できる。よって、本実施例に係る音声合成装置１０によれば、テキストに含まれる漢字表記の他国語をより正確に読み上げることが可能になる。

さて、上記の実施例１では、共起辞書を用いて他国語スコアを算出する場合を例示したが、開示の装置はこれに限定されず、他の方法により他国語スコアを算出することもできる。そこで、実施例２では、単漢字が他国語である確からしさが定義された単漢字辞書を用いて、他国語スコアを算出する場合について説明する。

図１０は、実施例２に係る音声合成装置の構成を示すブロック図である。なお、本実施例では、上記の実施例１に係る音声合成装置１０と同様の機能を有する機能部には同一の符号を付し、その説明を省略する。

図１０に示す音声合成装置３０は、図１に示した音声合成装置１０に比べて、共起辞書記憶部１３、コーパス記憶部１５ａ、作成部１５、言語処理部１６に代えて、単漢字辞書記憶部３１、他国語名詞記憶部３２ａ、作成部１５、言語処理部３３を有する点が異なる。さらに、図１０に示す算出部３３ａは、図１に示した算出部１６ｃに比べて、その処理内容が異なる。

このうち、単漢字辞書記憶部３１は、単漢字の他国語らしさが定義された単漢字辞書を記憶する記憶部である。一態様として、単漢字辞書記憶部３１は、単漢字ごとにその単漢字の中国語らしさ及び韓国語らしさを対応付けて記憶する。ここで言う「中国語らしさ」とは、単漢字が中国語である確からしさを指し、単漢字が中国語の名詞とともに出現する頻度から対数尤度を求めることにより算出される。同様に、「韓国語らしさ」とは、単漢字が韓国語である確からしさを指し、単漢字が韓国語の名詞とともに出現する頻度から対数尤度を求めることにより算出される。なお、単漢字辞書は、抽出部１６ｂによって抽出された未知語を形成する単漢字に対応付けられた他国語らしさが後述の算出部３３ａによって他国語スコアの算出に用いられる。

図１１は、単漢字辞書記憶部に記憶される情報の構成例を示す図である。図１１の例では、単漢字「金」の中国語らしさが「1.534」であり、韓国語らしさが「4.126」であることを示す。また、単漢字「釜」の中国語らしさが「1.478」であり、韓国語らしさが「3.632」であることを示す。また、単漢字「山」の中国語らしさが「1.759」であり、韓国語らしさが「1.758」であることを示す。また、単漢字「李」の中国語らしさが「3.335」であり、韓国語らしさが「3.411」であることを示す。以降も同様にして、単漢字「成」、「都」、「劉」、「京」の中国語らしさ及び韓国語らしさが定義されている。

他国語名詞記憶部３２ａは、他国語の名詞リストを記憶する記憶部である。一態様として、他国語名詞記憶部３２ａは、中国語の名詞リストと、韓国語の名詞リストとを記憶する。かかる他国語の名詞リストは、後述の作成部３２によって単漢字辞書が作成される場合に使用される。このため、名詞リストとして準備する文章の量が多いほど、後述の算出部３３ａによって算出される他国語スコアの精度を高めることができる。

作成部３２は、他国語名詞記憶部３２ａを用いて、単漢字辞書を作成する処理部である。この単漢字辞書の作成方法を図１２を用いて説明する。図１２は、単漢字辞書の作成方法を説明するための図である。なお、図１２の例では、単漢字の中国語らしさ及び韓国語らしさを定義する場合を例示するが、漢字を含んだ国語、例えば台湾語であれば同様にして台湾語らしさを定義できる。

図１２に示すように、作成部３２は、他国語名詞記憶部３２ａに記憶された名詞リストのうち中国語の名詞リストを読み出し、中国語の名詞リストに搭載されている中国語の名詞を１つの漢字列に連結する（ステップＳＡ７１）。図１２の例では、作成部３２は、「北京」、「南京」、「劉備」…の中国語の名詞を連結し、１つの中国語名詞の漢字列「北京南京劉備…」とする。

そして、作成部３２は、中国語名詞の漢字列に含まれる各漢字が漢字列に出現する頻度、以下「出現頻度」と記載を算出する（ステップＳＡ７２）。図１２の例で言えば、漢字「劉」の出現頻度として「37（回）」が算出され、漢字「京」の出現頻度として「35（回）」が算出される。さらに、漢字「李」の出現頻度として「32（回）」が算出され、漢字「都」の出現頻度として「26（回）」が算出される。さらに、漢字「成」の出現頻度として「25（回）」が算出される。

そして、作成部３２は、各漢字の対数尤度を算出する（ステップＳＡ７３）。かかる対数尤度には、一例として、算出式「対数尤度＝ｌｏｇ（出現頻度＊１００％／漢字列の長さ）」が用いられる。上記の算出式の「対数の底」には、任意のものを適用できるが、一例としては、自然対数を用いるのが好ましい。また、上記の算出式の「漢字列の長さ」とは、中国語名詞の漢字列の総漢字数を指す。図１２の例で言えば、漢字「劉」の対数尤度として「3.502」が算出され、漢字「京」の対数尤度として「3.466」が算出される。さらに、漢字「李」の対数尤度として「3.335」が算出され、漢字「都」の対数尤度として「2.213」が算出される。さらに、漢字「成」の対数尤度として「2.086」が算出される。

一方、作成部３２は、韓国語の名詞リストについても中国語の名詞リストと同様の処理を実行する。これを説明すると、作成部３２は、他国語名詞記憶部３２ａに記憶された名詞リストのうち韓国語の名詞リストを読み出し、韓国語の名詞リストに搭載されている韓国語の名詞を１つの漢字列に連結する（ステップＳＢ７１）。図１２の例では、作成部３２は、「平壌」、「金大中」…の韓国語の名詞を連結し、１つの韓国語名詞の漢字列「平壌金大中…」とする。

そして、作成部３２は、韓国語名詞の漢字列に含まれる各漢字が漢字列に出現する頻度を算出する（ステップＳＢ７２）。図１２の例で言えば、漢字「金」の出現頻度として「39（回）」が算出され、漢字「釜」の出現頻度として「37（回）」が算出される。さらに、漢字「李」の出現頻度として「33（回）」が算出され、漢字「山」の出現頻度として「22（回）」が算出される。

そして、作成部３２は、各漢字の対数尤度を算出する（ステップＳＢ７３）。図１２の例で言えば、漢字「金」の対数尤度として「4.126」が算出され、漢字「釜」の対数尤度として「3.632」が算出される。さらに、漢字「李」の対数尤度として「3.411」が算出され、漢字「山」の対数尤度として「1.758」が算出される。

その後、作成部３２は、中国語名詞の漢字列から算出した各漢字の対数尤度を中国語らしさとし、韓国語名詞の漢字列から算出した各漢字の対数尤度を韓国語らしさとする。その上で、作成部３２は、同一の漢字についての中国語らしさ及び韓国語らしさを纏めて単漢字辞書記憶部３１へ登録する（ステップＳ７４）。なお、中国語名詞の漢字列または韓国語名詞の漢字列のうち一方にしか存在しない漢字には、作成部３２は、ゼロを含む最低限の値、例えば「0.500」などを中国語らしさ又は韓国語らしさとして付与した上で単漢字辞書記憶部３１に登録する。

このように、上記のステップＳＡ７１〜ＳＡ７３、ステップＳＢ７１〜ＳＢ７３、ステップＳ７４の処理により、図１１に示した単漢字辞書が作成される。これによって、上記の実施例１における共起辞書と同様に、漢字表記の未知語が他国語である確からしさを評価するための評価基準を定義することができる。なお、上記のステップＳＡ７１〜ＳＡ７３の処理と、上記のステップＳＢ７１〜ＳＢ７３の処理とは、両者を並列して実行することもできるし、いずれを先または後として処理を実行することとしてもかまわない。

ここで、一例として、受付部１１から「釜山を訪問する」という入力テキストが入力された場合を想定する。この場合に、解析部１６ａは、図２に示した形態素辞書から入力テキストに含まれる文字列と一致する形態素を検索して、入力テキストを「釜」、「山」、「を」、「訪問」、「する。」という形態素に分割する。このとき、解析部１６ａは、入力テキストに含まれる文字列のうち「釜」及び「山」は実際には「釜山［プサン］」という２文字の単語であるが、形態素辞書には登録されてないので、これらの形態素が単漢字であると認識する。その上で、解析部１６ａは、各形態素に読みを付与し、「釜（単漢字）［カマ］・山（単漢字）［ヤマ］・を［オ］・訪問［ホウモン］・する［スル］。」という形態素解析の結果を得る。続いて、抽出部１６ｂは、「釜」及び「山」が単漢字として認識されているので、これら「釜山」を漢字表記の未知語として抽出する。

算出部３３ａは、単漢字辞書記憶部３１を用いて、抽出部１６ｂによって抽出された漢字表記の未知語が他国語である確からしさを表す他国語スコアを算出する。ここでは、中国語スコアの算出方法について例示するが、韓国語スコアの算出方法も同様である。これを説明すると、算出部３３ａは、漢字表記の未知語を構成する単漢字に対応する中国語らしさを単漢字辞書から抽出する。そして、算出部３３ａは、各々の単漢字の中国語らしさを合計することにより中国語スコアを算出する。その上で、算出部３３ａは、合計値である中国語スコアを未知語の文字数で除算することにより、正規化された中国語スコアを算出する。このような正規化を行うのは、入力テキストを受け付ける度に未知語の文字数が異なっても１つの閾値で判別部１６ｄにいずれの国の単語であるのかを判別させるためである。

上記のテキストの例で言えば、算出部３３ａは、漢字表記の未知語を構成する単漢字「釜」に対応する中国語らしさ「1.478」と、単漢字「山」に対応する中国語らしさ「1.759」とを単漢字辞書から抽出する。そして、算出部３３ａは、単漢字「釜」の中国語らしさ「1.478」と単漢字「山」の中国語らしさ「1.759」とを合計した上で未知語「釜山」の文字数「２」で除算する。これによって、算出部３３ａは、正規化された中国語スコア「1.618」を算出する。一方、算出部３３ａは、漢字表記の未知語を構成する単漢字「釜」に対応する韓国語らしさ「3.632」と、単漢字「山」に対応する韓国語らしさ「1.758」とを単漢字辞書から抽出する。そして、算出部３３ａは、単漢字「釜」の中国語らしさ「3.632」と単漢字「山」の中国語らしさ「1.758」とを合計した上で未知語「釜山」の文字数「２」で除算する。これによって、算出部３３ａは、正規化された韓国語スコア「2.695」を算出する。

このように、算出部３３ａは、中国語スコア「1.618」及び韓国語スコアが「2.695」を算出する。そして、判別部１６ｄが使用する閾値が「2.000」としたとき、韓国語スコア＞閾値＞中国語スコアとなるので、判別部１６ｄは、未知語「釜山」は韓国語であると判別する。このため、読み生成部１６ｅは、他国語辞書記憶部１４ｂによって記憶された「釜［プ］」及び「山［サン］」にしたがって漢字表記の未知語「釜山」に読み「プサン」を生成する。このため、誤った形態素解析の結果「カマヤマ」が未知語「釜山」に付与されることを防止できる。

［処理の流れ］
図１３は、実施例２に係る中国語スコア算出処理の手順を示すフローチャートである。この中国語スコア算出処理は、図８に示したステップＳ１０４に対応する処理であり、抽出部１６ｂによって漢字表記の未知語が抽出された場合に処理が起動する。なお、ここでは、他国語スコアのうち中国語スコアを算出する場合を例示しているが、韓国語スコアを算出する場合も同様である。

図１３に示すように、算出部３３ａは、各種のパラメータを設定する（ステップＳ５０１）。一例としては、算出部３３ａは、中国語スコア及びループカウンタＩをゼロに初期化するともに未知語の文字数Ｎに値を設定する。

そして、算出部３３ａは、ループカウンタＩが未知語の文字数Ｎに等しくなるまで（ステップＳ５０２肯定）、下記のステップＳ５０３〜ステップＳ５０５までの処理を繰り返し実行する。

すなわち、算出部３３ａは、未知語のＩ番目の漢字に対応する中国語らしさを単漢字辞書から抽出する（ステップＳ５０３）。そして、算出部３３ａは、Ｉ番目の漢字の中国語スコアを「Ｉ−１」番目までに累積加算していた中国語スコアに累積加算する（ステップＳ５０４）。その後、算出部１６ｃは、ループカウンタＩをインクリメントし（ステップＳ５０５）、上記のステップＳ５０２に移行する。

そして、ループカウンタＩが未知語の文字数Ｎに等しくなった場合（ステップＳ５０２否定）には、算出部３３ａは、中国語スコアを未知語の文字数Ｎで除算する（ステップＳ５０６）。このようにして中国語スコアを正規化した後に処理を終了する。

［実施例２の効果］
上述してきたように、本実施例に係る音声合成装置３０は、テキストの中に含まれる漢字表記の未知語が日本語以外のいずれの他国語であるのかを他国語スコアにより判別した上で未知語の読みを生成する。それゆえ、本実施例に係る音声合成装置３０では、漢字表記の未知語が他国語である確からしさを他国語スコアとして評価した上で他国語スコアが高い他国語の読みを未知語の読みとして生成できる。このため、本実施例に係る音声合成装置３０では、日本語のテキストの中に漢字表記の中国語、韓国語や台湾語などの他国語が含まれていたとしても、他国語の文字列に誤った日本語の読みを付与することを防止できる。よって、本実施例に係る音声合成装置３０によれば、上記の実施例１と同様に、テキストに含まれる漢字表記の他国語を正確に読み上げることが可能になる。

さらに、本実施例に係る音声合成装置３０は、漢字表記の未知語を構成する単漢字が他国語の単語として出現する頻度、尤度または確率を用いて、他国語スコアを算出する。このため、本実施例に係る音声合成装置３０では、未知語の文字構成が他国語である確からしさを他国語スコアにより評価することが可能になる。

さて、これまで開示の装置に関する実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では、本発明に含まれる他の実施例を説明する。

［適用範囲］
例えば、上記の実施例１及び実施例２では、開示の装置を音声合成装置１０または３０として実装する場合を例示したが、開示の装置の実装形態はこれに限定されない。例えば、音声合成装置１０または３０に含まれる言語処理部１６または３３の機能だけを言語処理装置として適用することもできる。

また、上記の実施例１及び実施例２では、互いの実施例を単独で実施する場合を例示したが、これらの実施例は好適に組み合わせて実施することができる。一例としては、共起辞書を用いて算出された他国語スコア及び単漢字辞書を用いて算出された他国語スコアに統計処理、例えば相加平均や加重平均などの処理を実行して他国語スコアの信頼性をより高めることもできる。

また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、受付部１１、作成部１５、言語処理部１６、言語処理部３３、韻律生成部１７または合成部１８を音声合成装置１０または３０の外部装置としてネットワーク経由で接続するようにしてもよい。また、受付部１１、作成部１５、言語処理部１６、言語処理部３３、韻律生成部１７または合成部１８を別の装置がそれぞれ有し、ネットワーク接続されて協働することで、上記の音声合成装置１０または３０の機能を実現するようにしてもよい。

［言語処理プログラム］
また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することができる。そこで、以下では、図１４を用いて、上記の実施例と同様の機能を有する言語処理プログラムを実行するコンピュータの一例について説明する。

図１４は、実施例３に係る言語処理プログラムを実行するコンピュータの一例について説明するための図である。図１４に示すように、実施例２におけるコンピュータ１００は、操作部１１０ａと、マイク１１０ｂと、スピーカ１１０ｃと、ディスプレイ１２０と、通信部１３０とを有する。さらに、このコンピュータ１００は、ＣＰＵ１５０と、ＲＯＭ１６０と、ＨＤＤ（Hard Disk Drive）１７０と、ＲＡＭ（Random Access Memory）１８０と有する。これら１１０〜１８０の各部はバス１４０を介して接続される。

ＨＤＤ１７０には、図１４に示すように、上記の実施例１又は２で示した言語処理部１６又は３３と同様の機能を発揮する言語処理プログラム１７０が予め記憶される。この言語処理プログラム１７０については、図１又は図１０に示した言語処理部１６又は３３の各構成要素と同様、適宜統合又は分離しても良い。すなわち、ＨＤＤ１７０に格納される各データは、常に全てのデータがＨＤＤ１７０に格納される必要はなく、処理に必要なデータのみがＨＤＤ１７０に格納されれば良い。

そして、ＣＰＵ１５０が、言語処理プログラム１７０ａをＨＤＤ１７０から読み出してＲＡＭ１８０に展開する。これにより、図１４に示すように、言語処理プログラム１７０ａは、言語処理プロセス１８０ａとして機能する。この言語処理プロセス１８０ａは、ＨＤＤ１７０から読み出した各種データを適宜ＲＡＭ１８０上の自身に割り当てられた領域に展開し、この展開した各種データに基づいて各種処理を実行する。なお、言語処理プロセス１８０は、例えば、図１又は図１０に示した言語処理部１６又は３３にて実行される処理、例えば図８と図９または図１３とに示す処理を含む。なお、ＣＰＵ１５０上で仮想的に実現される各処理部は、常に全ての処理部がＣＰＵ１５０上で動作する必要はなく、処理に必要な処理部のみが仮想的に実現されれば良い。

なお、上記の言語処理プログラムについては、必ずしも最初からＨＤＤ１７０やＲＯＭ１６０に記憶させておく必要はない。例えば、コンピュータ１００に挿入されるフレキシブルディスク、いわゆるＦＤ、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させる。そして、コンピュータ１００がこれらの可搬用の物理媒体から各プログラムを取得して実行するようにしてもよい。また、公衆回線、インターネット、ＬＡＮ、ＷＡＮなどを介してコンピュータ１００に接続される他のコンピュータまたはサーバ装置などに各プログラムを記憶させておき、コンピュータ１００がこれらから各プログラムを取得して実行するようにしてもよい。

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）所定の辞書を用いて漢字を含んだ文章に形態素解析を実行することにより、前記文章を形態素に分割した上で各形態素に読みを付与する解析部と、
前記解析部による形態素解析の結果から漢字表記の未知語を抽出する抽出部と、
前記抽出部によって抽出された漢字表記の未知語が前記辞書に載る国語とは異なる他国語である確からしさを表す他国語スコアを算出する算出部と、
前記算出部によって算出された他国語スコアに基づいて、前記漢字表記の未知語がいずれの国の単語であるのかを判別する判別部と、
前記判別部による判別結果に応じて、前記漢字表記の未知語の読みを生成する読み生成部と
を有することを特徴とする言語処理装置。

（付記２）前記算出部は、前記文章に含まれる前記未知語以外の形態素と、他国語の単語との間における共起関係を用いて、前記他国語スコアを算出することを特徴とする付記１に記載の言語処理装置。

（付記３）前記算出部は、前記漢字表記の未知語を構成する単漢字が他国語の単語として出現する頻度、尤度または確率を用いて、前記他国語スコアを算出することを特徴とする付記１に記載の言語処理装置。

（付記４）前記読み生成部によって生成された漢字表記の未知語の読みにアクセントを付与する付与部と、
前記付与部によって漢字表記の未知語の読みにアクセントが付与された形態素解析の結果から前記文章の表音文字列を生成する表音生成部と
をさらに有することを特徴とする付記１、２または３に記載の言語処理装置。

（付記５）所定の辞書を用いて漢字を含んだ文章に形態素解析を実行することにより、前記文章を形態素に分割した上で各形態素に読みを付与する解析部と、
前記解析部による形態素解析の結果から漢字表記の未知語を抽出する抽出部と、
前記抽出部によって抽出された漢字表記の未知語が前記辞書に載る国語とは異なる他国語である確からしさを表す他国語スコアを算出する算出部と、
前記算出部によって算出された他国語スコアに基づいて、前記漢字表記の未知語がいずれの国の単語であるのかを判別する判別部と、
前記判別部による判別結果に応じて、前記漢字表記の未知語の読みを生成する読み生成部と、
前記読み生成部によって生成された漢字表記の未知語の読みにアクセントを付与する付与部と、
前記付与部によって漢字表記の未知語の読みにアクセントが付与された形態素解析の結果から前記文章の表音文字列を生成する表音生成部と、
前記表音生成部によって生成された表音文字列に基づいて前記文章に対応する韻律を生成する韻律生成部と、
前記韻律生成部によって生成された韻律から音声波形を生成して音声を合成する合成部と
を有することを特徴とする音声合成装置。

（付記６）コンピュータが、
所定の辞書を用いて漢字を含んだ文章に形態素解析を実行することにより、前記文章を形態素に分割した上で各形態素に読みを付与し、
前記形態素解析の結果から漢字表記の未知語を抽出し、
前記漢字表記の未知語が前記辞書に載る国語とは異なる他国語である確からしさを表す他国語スコアを算出し、
前記他国語スコアに基づいて、前記漢字表記の未知語がいずれの国の単語であるのかを判別し、
前記判別結果に応じて前記漢字表記の未知語の読みを生成する
処理を実行することを特徴とする言語処理方法。

（付記７）コンピュータに、
所定の辞書を用いて漢字を含んだ文章に形態素解析を実行することにより、前記文章を形態素に分割した上で各形態素に読みを付与し、
前記形態素解析の結果から漢字表記の未知語を抽出し、
前記漢字表記の未知語が前記辞書に載る国語とは異なる他国語である確からしさを表す他国語スコアを算出し、
前記他国語スコアに基づいて、前記漢字表記の未知語がいずれの国の単語であるのかを判別し、
前記判別結果に応じて前記漢字表記の未知語の読みを生成する
処理を実行させることを特徴とする言語処理プログラム。

（付記８）コンピュータが、
所定の辞書を用いて、漢字を含んだ複数の文章にそれぞれ形態素解析を実行することにより、各々の文章を形態素に分割し、
前記形態素に分割された文章のうち、前記辞書に載る国語とは異なる他国語の名詞であって漢字によって構成される他国語の名詞を含む文章を抽出し、
前記他国語の名詞を含む文章の形態素であって前記他国語の名詞の直後の形態素である第１の形態素が前記複数の文章に出現する頻度と、前記他国語の名詞及び該他国語の名詞の直後の語を除く形態素である第２の形態素が前記複数の文章に出現する頻度とを算出し、
前記第１の形態素が出現する頻度を用いて、前記第１の形態素と共起関係を結ぶ単語が出現した場合に当該単語が前記他国語である確からしさを表す第１の対数尤度を算出し、
前記第２の形態素が出現する頻度を用いて、前記第２の形態素と共起関係を結ぶ単語が出現した場合に当該単語が前記他国語である確からしさを表す第２の対数尤度を算出し、
前記第１の形態素および第１の対数尤度を対応付けるとともに前記第２の形態素および第２の対数尤度を対応付けることにより、前記第１の形態素および前記第２の形態素の共起辞書を作成する
処理を実行することを特徴とする共起辞書の作成方法。

（付記９）前記コンピュータが、
前記頻度を算出する処理として、前記第１の形態素または前記第２の形態素のうち名詞である形態素を対象に当該形態素が前記複数の文章に出現する頻度を算出する処理を実行することを特徴とする付記８に記載の共起辞書の作成方法。

（付記１０）前記コンピュータが、
前記第１の対数尤度および前記第２の対数尤度のうち前記第２の対数尤度に前記第１の対数尤度よりも大きい重みを付与する重み付け処理を実行することを特徴とする付記８または付記９に記載の共起辞書の作成方法。

（付記１１）コンピュータが、
漢字かな混じり文を国語とする国とは異なる他国語の名詞であって漢字によって構成される他国語の名詞を複数取得し、
複数取得された他国語の名詞を１つの漢字列に連結し、
連結された漢字列に含まれる単漢字ごとに当該単漢字が前記漢字列に出現する頻度を算出し、
前記単漢字が出現する頻度を用いて、前記単漢字が前記他国語である確からしさを表す対数尤度を算出し、
前記単漢字および前記対数尤度を対応付けることにより、前記単漢字の辞書を作成する
処理を実行することを特徴とする単漢字辞書の作成方法。

１０音声合成装置
１１受付部
１２形態素辞書記憶部
１３共起辞書記憶部
１４ａ日本語辞書記憶部
１４ｂ他国語辞書記憶部
１５ａコーパス記憶部
１５作成部
１６言語処理部
１６ａ解析部
１６ｂ抽出部
１６ｃ算出部
１６ｄ判別部
１６ｅ読み生成部
１６ｆ付与部
１６ｇ表音生成部
１７韻律生成部
１８合成部
１９出力部

Claims

所定の辞書を用いて漢字を含んだ文章に形態素解析を実行することにより、前記文章を形態素に分割した上で各形態素に読みを付与する解析部と、
前記解析部による形態素解析の結果から漢字表記の未知語を抽出する抽出部と、
前記抽出部によって抽出された漢字表記の未知語が前記辞書に載る国語とは異なる他国語である確からしさを表す他国語スコアを算出する算出部と、
前記算出部によって算出された他国語スコアに基づいて、前記漢字表記の未知語がいずれの国の単語であるのかを判別する判別部と、
前記判別部による判別結果に応じて、前記漢字表記の未知語の読みを生成する読み生成部と
を有することを特徴とする言語処理装置。
前記算出部は、前記文章に含まれる前記未知語以外の形態素と、他国語の単語との間における共起関係を用いて、前記他国語スコアを算出することを特徴とする請求項１に記載の言語処理装置。
前記算出部は、前記漢字表記の未知語を構成する単漢字が他国語の単語として出現する頻度、尤度または確率を用いて、前記他国語スコアを算出することを特徴とする請求項１に記載の言語処理装置。
前記読み生成部によって生成された漢字表記の未知語の読みにアクセントを付与する付与部と、
前記付与部によって漢字表記の未知語の読みにアクセントが付与された形態素解析の結果から前記文章の表音文字列を生成する表音生成部と
をさらに有することを特徴とする請求項１、２または３に記載の言語処理装置。
所定の辞書を用いて漢字を含んだ文章に形態素解析を実行することにより、前記文章を形態素に分割した上で各形態素に読みを付与する解析部と、
前記解析部による形態素解析の結果から漢字表記の未知語を抽出する抽出部と、
前記抽出部によって抽出された漢字表記の未知語が前記辞書に載る国語とは異なる他国語である確からしさを表す他国語スコアを算出する算出部と、
前記算出部によって算出された他国語スコアに基づいて、前記漢字表記の未知語がいずれの国の単語であるのかを判別する判別部と、
前記判別部による判別結果に応じて、前記漢字表記の未知語の読みを生成する読み生成部と、
前記読み生成部によって生成された漢字表記の未知語の読みにアクセントを付与する付与部と、
前記付与部によって漢字表記の未知語の読みにアクセントが付与された形態素解析の結果から前記文章の表音文字列を生成する表音生成部と、
前記表音生成部によって生成された表音文字列に基づいて前記文章に対応する韻律を生成する韻律生成部と、
前記韻律生成部によって生成された韻律から音声波形を生成して音声を合成する合成部と
を有することを特徴とする音声合成装置。
コンピュータが、
所定の辞書を用いて漢字を含んだ文章に形態素解析を実行することにより、前記文章を形態素に分割した上で各形態素に読みを付与し、
前記形態素解析の結果から漢字表記の未知語を抽出し、
前記漢字表記の未知語が前記辞書に載る国語とは異なる他国語である確からしさを表す他国語スコアを算出し、
前記他国語スコアに基づいて、前記漢字表記の未知語がいずれの国の単語であるのかを判別し、
前記判別結果に応じて前記漢字表記の未知語の読みを生成する
処理を実行することを特徴とする言語処理方法。
コンピュータに、
所定の辞書を用いて漢字を含んだ文章に形態素解析を実行することにより、前記文章を形態素に分割した上で各形態素に読みを付与し、
前記形態素解析の結果から漢字表記の未知語を抽出し、
前記漢字表記の未知語が前記辞書に載る国語とは異なる他国語である確からしさを表す他国語スコアを算出し、
前記他国語スコアに基づいて、前記漢字表記の未知語がいずれの国の単語であるのかを判別し、
前記判別結果に応じて前記漢字表記の未知語の読みを生成する
処理を実行させることを特徴とする言語処理プログラム。