JP2004301968A

JP2004301968A - 発話処理装置、発話処理方法及び発話処理用プログラム

Info

Publication number: JP2004301968A
Application number: JP2003092973A
Authority: JP
Inventors: Masaru Obara; 優小原; Koichiro Fukunaga; 功一郎福永
Original assignee: Clarion Co Ltd
Current assignee: Faurecia Clarion Electronics Co Ltd
Priority date: 2003-03-31
Filing date: 2003-03-31
Publication date: 2004-10-28

Abstract

【課題】言語辞書に登録されていない単語を、ある程度正確に、もしくは理解できる単語に変換することができる発話処理装置を提供する。
【解決手段】予め登録された単語の発音規則を保持する言語辞書と、変換すべきでない単語の一覧を保持する無変換単語データベースと、所定の変換規則を保持する変換規則データベースとを備え、発話対象となる単語が前記言語辞書に登録されているか否かを判断する判定部と、「変換処理の対象となる単語」を取得する処理対象単語取得部と、前記無変換単語データベースから「変換すべきでない単語」の一覧を取得する無変換単語データ取得部と、前記「変換処理の対象となる単語」と「変換すべきでない単語の一覧」とを比較して、変換すべき単語を選別する比較部と、前記変換すべき単語を、前記変換規則に従ってカタカナに変換する変換処理部と、この変換処理部によって変換された文字列を、前記言語辞書に保持された発音規則に従って音声化する音声合成部とを備える。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
ＴＴＳ（ＴｅｘｔＴｏＳｐｅｅｃｈ）エンジンが英単語を読み上げる場合に参照する言語辞書に登録されていない英単語（例えば、俗語やローマ字表記の名前）を、アルファベット読みではなく、日本語化した読み方で発話することができる発話処理装置、発話処理方法及び発話処理用プログラムに関するものである。
【０００２】
【従来の技術】
従来から用いられている発話装置において、ＴＴＳエンジンが発話対象となる英単語を読み上げる場合、言語辞書よりその単語固有の発話規則を取得し、発話させるように構成されている。つまり、発話対象となる英単語を正確に発話するためには、言語辞書に多数の単語を登録しておく必要がある。この言語辞書は、容量を大きくすることで多くの発話規則をカバーできるが、メモリ容量等に制限がある場合には、正確に読み上げられる可能性は低くなる。
【０００３】
このように言語辞書に登録されていない英単語の読み上げを要求された場合、その英単語を読み上げるための発話規則を取得することができないため、従来は、その英単語を単にアルファベット読みする方法がとられていた。また、ローマ字規則（子音＋母音、または母音のみで構成されている）に当てはまるアルファベットの羅列の場合には、その英単語が本来ローマ字読みすべきでないものであっても、それらをローマ字規則に従って日本語化して読み上げていた（特許文献１、特許文献２、特許文献３参照）。
【０００４】
【特許文献１】
特開２００２−２３７８２号公報
【特許文献２】
特開平１１−３０５９８７号公報
【特許文献３】
特開２０００−１０５７９号公報
【０００５】
【発明が解決しようとする課題】
しかしながら、上記言語辞書にも登録されておらず、聞き慣れない英単語をアルファベット読みされると、非常に聴き取り難い。また、発話スピードが早く設定されている場合には、なおさら聴き取り難くなる。さらに、アルファベットで読み上げられた英単語を頭の中で構築し直す必要があるため、集中力が阻害され、ナビゲーション装置等に用いた場合には、運転中等の動作に支障を与える可能性がある。
【０００６】
また、上記言語辞書に登録されていない英単語を、単純にローマ字規則に沿って変換すると、その英単語がたまたまローマ字規則に当てはまるもの（例えば、ｍｏｒｅ，ａｍａｚｅ，ａｒｅ等）であった場合には、一律にローマ字読みされてしまうため、正確に読み上げることができない。例えば、“ｍｏｒｅ”は「モレ」、“ａｍａｚｅ”は「アマゼ」、“ａｒｅ”は「アレ」と読み上げられてしまうことになる。
【０００７】
本発明は、上述したような従来技術の問題点を解消するために提案されたものであり、その目的は、言語辞書に登録されていない英単語を、ある程度正確に、もしくは理解できる単語に変換することができる発話処理装置、発話処理方法及び発話処理用プログラムを提供することにある。
【０００８】
【課題を解決するための手段】
上記目的を達成するために、請求項１に記載の発話装置は、予め登録された単語の発音規則を保持する言語辞書と、変換すべきでない単語の一覧を保持する無変換単語データベースと、所定の変換規則を保持する変換規則データベースとを備えると共に、発話対象となる単語を取得して、この単語が前記言語辞書に登録されているか否かを判断する判定部と、その判定結果に基づいて、「変換処理の対象となる単語」を取得する処理対象単語取得部と、前記無変換単語データベースから、「変換すべきでない単語」の一覧を取得する無変換単語データ取得部と、前記「変換処理の対象となる単語」と「変換すべきでない単語の一覧」とを比較して、変換すべき単語を選別する比較部と、前記変換すべき単語を、前記変換規則に従ってカタカナに変換する変換処理部と、この変換処理部によって変換された文字列を、前記言語辞書に保持された発音規則に従って音声化する音声合成部とを備えたことを特徴とする。
【０００９】
また、請求項３に記載の発話処理方法は、請求項１に記載の発明を方法の観点で捉えたものであって、発話対象となる単語を取得して、その単語が、予め登録された単語についての発音規則を保持する言語辞書に登録されているか否かを判断する判定処理と、その判定結果に基づいて、「変換処理の対象となる単語」を取得する処理対象単語取得処理と、変換すべきでない単語の一覧を保持する無変換単語データベースから、その一覧を取得する無変換単語データ取得処理と、前記「変換処理の対象となる単語」と「変換すべきでない単語の一覧」とを比較して、変換すべき単語を選別する比較処理と、前記変換すべき単語を、取得された変換規則に従ってカタカナに変換する変換処理と、この変換処理によって変換された文字列を、前記言語辞書に保持された発音規則に従って音声化する音声合成処理とを含むことを特徴とする。
【００１０】
また、請求項５に記載の発明は、請求項３に記載の発明をコンピュータプログラムという観点で捉えたものであって、コンピュータを制御することにより、発話対象となる単語を読み上げる発話処理用プログラムにおいて、そのプログラムは前記コンピュータに、発話対象となる単語を取得して、その単語が、予め登録された単語についての発音規則を保持する言語辞書に登録されているか否かを判断する判定ステップと、その判定結果に基づいて、「変換処理の対象となる単語」を取得する処理対象単語取得ステップと、変換すべきでない単語の一覧を保持する無変換単語データベースから、その一覧を取得する無変換単語データ取得ステップと、前記「変換処理の対象となる単語」と「変換すべきでない単語の一覧」とを比較して、変換すべき単語を選別する比較ステップと、前記変換すべき単語を、取得された変換規則に従ってカタカナに変換する変換ステップと、この変換ステップにおいて変換された文字列を、前記言語辞書に保持された発音規則に従って音声化する音声合成ステップとを実行させるものであることを特徴とする。
【００１１】
上記のような構成を有する請求項１，請求項３，請求項５の発明によれば、音声合成部の保持する言語辞書に登録されていない単語の発話を、ある程度正確に行うことができる。また、言語辞書に登録されていない単語を、単純にアルファベット読みすることを防止できるので、聞き取りやすくなる。その結果、メールアドレス等のローマ字表記の文字列を、正確に読み上げることができるようになる。
【００１２】
請求項２に記載の発明は、請求項１に記載の発話処理装置において、前記変換規則データベースが、アルファベットを保持している「アルファベットテーブル」と、あるアルファベットに付け加えられることで意味をなす文字列を保持している「続き文字テーブル」と、カタカナを保持している「カタカナテーブル」から構成されていることを特徴とする。
【００１３】
また、請求項４に記載の発明は、請求項３に記載の発話処理方法において、前記変換規則データベースが、アルファベットを保持している「アルファベットテーブル」と、あるアルファベットに付け加えられることで意味をなす文字列を保持している「続き文字テーブル」と、カタカナを保持している「カタカナテーブル」から構成されていることを特徴とする。
【００１４】
上記のような構成を有する請求項２又は請求項４の発明によれば、変換処理の対象となる単語の１文字目を抽出し、まず、「アルファベットテーブル」を参照することによりそのアルファベットを特定し、次に、あるアルファベットに付け加えられることで意味をなす文字列を保持している「続き文字テーブル」を参照して、２文字目以降を特定し、最後に「カタカナテーブル」を参照して、カタカナ文字列に変換することができる。
【００１５】
【発明の実施の形態】
以下、本発明の実施の形態（以下、実施形態という）について、図面を参照して、具体的に説明する。
なお、本発明の各機能は、コンピュータを、ソフトウェアで制御することによって実現することが一般的である。この場合、コンピュータが備えるレジスタ、メモリ、外部記憶装置などの記憶装置が、いろいろな形式で、情報を一時的に保持したり永続的に保存する。そして、ＣＰＵが、前記ソフトウェアにしたがって、これらの情報に加工及び判断などの処理を加え、さらに、処理の順序を制御する。
【００１６】
また、コンピュータを制御するソフトウェアは、本出願の各請求項及び本明細書に記述する処理に対応した命令を組み合わせることによって作成され、作成されたソフトウェアは、アセンブルやコンパイルされた組み込みソフトウェアなどの形式で実行されることで、上記のようなハードウェア資源を活用する。
【００１７】
但し、本発明を実現するための上記のような態様はいろいろ変更することができ、例えば、本発明を実現するソフトウェアを記録したＲＯＭチップやＣＤ−ＲＯＭのような記録媒体は、それ単独でも本発明の一態様である。また、本発明の機能の一部をＬＳＩなどの物理的な電子回路で実現することも可能である。
【００１８】
（１）構成
図１は、本実施形態の発話処理装置の全体構成を示すブロック図である。すなわち、本実施形態の発話処理装置は、発話対象となる英単語を取得して、この英単語が後述する言語辞書１０に登録されているか否かを判断する判定部１と、その判定結果に基づいて、変換処理の対象となる英単語を取得する処理対象英単語取得部２と、後述する無変換単語データベース２０から、変換すべきでない単語の一覧を取得する無変換単語データ取得部３と、前記「変換処理の対象となる英単語」と「変換すべきでない単語の一覧」とを比較して、変換すべき英単語を選別する比較部４と、後述する変換規則データベース３０から、変換規則データを取得する変換規則データ取得部５と、前記変換すべき英単語を、取得された変換規則に従ってカタカナに変換する変換処理部６と、この変換処理部６によって変換された文字列を、言語辞書１０に保持された発音規則に従って音声化し、発話処理を行うＴＴＳエンジン７（請求項の音声合成部に相当）とを備えている。
【００１９】
また、前記言語辞書１０は、日本語／英単語を問わず、単語の正確な発音規則を保持しているデータベースであり、この言語辞書１０を参照して、前記ＴＴＳエンジン７が発話処理を行うものである。
【００２０】
無変換単語データベース２０は、“ｍｏｒｅ”，“ａｒｅ”等、変換規則データベース３０で間違った変換を行われてしまう可能性のある単語の一覧を保持しているデータベースである。すなわち、後述する変換規則データベース３０に従うと、“ｍｏｒｅ”は「モレ」、“ａｒｅ”は「アレ」と発話されてしまうが、このような誤った発話がなされる恐れがある単語を格納したものである。
【００２１】
また、変換規則データベース３０は、ローマ字変換規則やフォニックス変換規則を保持するデータベースであり、例えば、以下の３種類のテーブルから構成されている。すなわち、アルファベットを保持している「アルファベットテーブル」と、あるアルファベットに付け加えられることで意味をなす文字列を保持している「続き文字テーブル」と、カタカナを保持している「日本語（カタカナ）テーブル」から構成されている。
【００２２】
なお、ローマ字変換規則とは、ローマ字のルールに沿った形式で、子音＋母音／母音の組合せをカタカナにすることや、有効子音の範囲（ｓｈとｓを同等にみなす等）を表すものであり、フォニックス変換規則とは、フォニックスに沿った形式で、子音＋母音／母音の組合せをカタカナにするルールを表すものである。
【００２３】
なお、本発明に係る発話処理装置は、前記変換処理部６から、ＴＴＳエンジン７へ文字列を受け渡す必要があるため、同一メモリ空間や、ネットワーク通信可能な範囲で動作させる必要がある。
【００２４】
（２）変換規則データベースの構成
上述したように、変換規則データベース３０は、例えば３種類のテーブルから構成されているが、各テーブルの構成を以下に詳述する。
【００２５】
（２−１）アルファベットテーブル
「アルファベットテーブル」は、アルファベットの全てを網羅しているテーブルであり、以下のように構成されている。

【００２６】
（２−２）続き文字テーブル
続き文字テーブルは、以下のように構成されている。

【００２７】
このテーブルは、次のように用いられる。すなわち、上記「アルファベットテーブル」でＡｌｐｈＴａｂｌｅ［０］は“Ａ”なので、“ア”に変換される必要がある。そのため、ｎ＝０の場合は、続き文字は存在しない。また、ＡｌｐｈＴａｂｌｅ［１］は“Ｂ”であるが、この“Ｂ”に“Ａ”が続くと“ＢＡ”となり、“バ”になり得るため、続き文字は“Ａ”となる。このことが、Ｃｏｎｖ［１］［０］＝ ”Ａ”と表されている。また、ＡｌｐｈＴａｂｌｅ［１］の“Ｂ”は、“バ”以外にも、“ビャ”等があり得るため、続き文字として、“ＹＡ”も準備しておく。
このように、続き文字テーブルは、各アルファベットに対して、変換可能な文字列を登録しておくものである。なお、ＮＵＬＬは、ターミネータ（終了宣言）である。
【００２８】
（２−３）日本語（カタカナ）テーブル
「日本語（カタカナ）テーブル」は、上記「アルファベットテーブル」と「続き文字テーブル」の配列番号から生成されるカタカナを格納しているテーブルであり、以下のように構成されている。なお、第１配列番号でｎを使用し、第２配列番号でｎ＋ｍとしているのは、日本語テーブルを重複して参照されないようにするためである。

【００２９】
（３）作用
上記のような構成を有する本実施形態の発話処理装置における処理の流れを、図２に示したフローチャートを参照して説明する。
まず、判定部１が発話対象となる英単語を取得し（ステップＳ２０１）、この英単語が言語辞書１０に登録されているか否かを判断する（ステップＳ２０２）。この英単語が言語辞書１０に登録されていないと判断された場合には、ステップＳ２０３に進み、この英単語を「変換処理対象となる英単語」として取得する。一方、ステップＳ２０２において、発話対象となる英単語が言語辞書１０に登録されていると判断された場合には、ステップＳ２０８に進み、言語辞書１０に保持されている発音規則に従って、ＴＴＳエンジン７によって発話される。
【００３０】
続いて、ステップＳ２０４において、比較部４が、無変換単語データ取得部３を介して、無変換単語データベース２０から「変換すべきでない単語の一覧」を取得し、ステップＳ２０３において取得された「変換処理対象となる英単語」と「変換すべきでない単語の一覧」とを比較して、変換すべき英単語を選別する（ステップＳ２０５）。
ステップＳ２０５において、「変換処理対象となる英単語」が、変換すべきでない単語であると判断された場合には、ＴＴＳエンジンが正確な読み上げ規則を保持しているので、そのままＴＴＳエンジン７に渡され、発話される（ステップＳ２０８）。
【００３１】
一方、ステップＳ２０５において、「変換処理対象となる英単語」が変換すべき単語であると判断された場合には、変換処理部６が、変換規則データ取得部５を介して、変換規則データベース３０から取得した変換規則データ（上記３種類のテーブル）に従って、変換すべき単語をカタカナに変換し（ステップＳ２０６、Ｓ２０７）、ＴＴＳエンジン７によって発話される（ステップＳ２０８）。
【００３２】
続いて、図２に示したフローチャートのステップ２０６〜２０７の変換処理部６における処理について、図３のフローチャートを参照して説明する。
まず、図２のＳ２０５で取得された変換処理の対象となる単語（文字列）の１文字目を抽出する（ステップＳ３０１）。なお、このように、変換処理の対象となる単語を１文字ずつ分割することで、多言語への対応が可能となる。
【００３３】
続いて、図２のＳ２０６で、変換規則データベース３０から取得した「アルファベットテーブル」を参照して、変換対象英単語の１文字目を特定することにより、ｎが検出される（ステップＳ３０２〜ステップＳ３０３）。
【００３４】
次に、「続き文字テーブル」を参照して、変換対象英単語の２文字目以降の文字列が、続き文字テーブルで定義された文字列に当てはまるかどうかを確認する。その結果、ｍが検出される（ステップＳ３０４〜ステップＳ３０５）。そして、特定されたｎ、ｍを用いて、日本語テーブルを参照し、カタカナ文字を取得する（ステップＳ３０６〜ステップＳ３０７）。これを繰り返すことで、英単語を一文字づつ、カタカナ文字列に変換することができる。このようにして変換された変換対象英単語をＴＴＳエンジン７に渡し、発話される（図２のステップＳ２０８）。
【００３５】
（４）効果
上述したように、本実施形態の発話処理装置によれば、ＴＴＳエンジンの保持する言語辞書に登録されていない英単語の発話を、ある程度正確に行うことができる。また、言語辞書に登録されていない英単語を、単純にアルファベット読みすることを防止できるので、聞き取りやすくなる。その結果、メールアドレス等のローマ字表記の文字列を、正確に読み上げることができるようになる。
【００３６】
（５）他の実施形態
本発明は、上述したような実施形態に限定されるものではなく、以下のような変形例が可能である。すなわち、図２のステップＳ２０５で「変換すべきでない単語」とされた英単語を、言語辞書１０に自動的に登録するようにすれば、それ以後、その単語についてのステップＳ２０３〜Ｓ２０５の処理が不要となる。また、変換規則データベースに格納される変換ルールは、適宜、追加・変更・削除が可能である。また、上記実施形態においては英単語を例に説明したが、他の言語に適用できることは言うまでもない。
【００３７】
【発明の効果】
以上説明したように、本発明によれば、言語辞書に登録されていない英単語を、ある程度正確に、もしくは理解できる単語に変換することができる発話処理装置、発話処理方法及び発話処理用プログラムを提供することができる。
【図面の簡単な説明】
【図１】本発明に係る発話処理装置の一実施形態の構成を示すブロック図
【図２】本発明の発話処理装置における処理の流れを示すフローチャート
【図３】本発明の発話処理装置の変換処理部における処理の流れを示すフローチャート
【符号の説明】
１…判定部
２…処理対象英単語取得部
３…無変換単語データ取得部
４…比較部
５…変換規則データ取得部
６…変換処理部
７…ＴＴＳエンジン
１０…言語辞書
２０…無変換単語データベース
３０…変換規則データベース

Claims

予め登録された単語の発音規則を保持する言語辞書と、
変換すべきでない単語の一覧を保持する無変換単語データベースと、
所定の変換規則を保持する変換規則データベースとを備えると共に、
発話対象となる単語を取得して、この単語が前記言語辞書に登録されているか否かを判断する判定部と、
その判定結果に基づいて、「変換処理の対象となる単語」を取得する処理対象単語取得部と、
前記無変換単語データベースから、「変換すべきでない単語」の一覧を取得する無変換単語データ取得部と、
前記「変換処理の対象となる単語」と「変換すべきでない単語の一覧」とを比較して、変換すべき単語を選別する比較部と、
前記変換すべき単語を、前記変換規則に従ってカタカナに変換する変換処理部と、
この変換処理部によって変換された文字列を、前記言語辞書に保持された発音規則に従って音声化する音声合成部と、
を備えたことを特徴とする発話処理装置。
前記変換規則データベースが、アルファベットを保持している「アルファベットテーブル」と、あるアルファベットに付け加えられることで意味をなす文字列を保持している「続き文字テーブル」と、カタカナを保持している「カタカナテーブル」から構成されていることを特徴とする請求項１に記載の発話処理装置。
発話対象となる単語を取得して、その単語が、予め登録された単語についての発音規則を保持する言語辞書に登録されているか否かを判断する判定処理と、
その判定結果に基づいて、「変換処理の対象となる単語」を取得する処理対象単語取得処理と、
変換すべきでない単語の一覧を保持する無変換単語データベースから、その一覧を取得する無変換単語データ取得処理と、
前記「変換処理の対象となる単語」と「変換すべきでない単語の一覧」とを比較して、変換すべき単語を選別する比較処理と、
前記変換すべき単語を、取得された変換規則に従ってカタカナに変換する変換処理と、
この変換処理によって変換された文字列を、前記言語辞書に保持された発音規則に従って音声化する音声合成処理と、
を含むことを特徴とする発話処理方法。
前記変換規則データベースが、アルファベットを保持している「アルファベットテーブル」と、あるアルファベットに付け加えられることで意味をなす文字列を保持している「続き文字テーブル」と、カタカナを保持している「カタカナテーブル」から構成されていることを特徴とする請求項３に記載の発話処理方法。
コンピュータを制御することにより、発話対象となる単語を読み上げる発話処理用プログラムにおいて、
そのプログラムは前記コンピュータに、
発話対象となる単語を取得して、その単語が、予め登録された単語についての発音規則を保持する言語辞書に登録されているか否かを判断する判定ステップと、
その判定結果に基づいて、「変換処理の対象となる単語」を取得する処理対象単語取得ステップと、
変換すべきでない単語の一覧を保持する無変換単語データベースから、その一覧を取得する無変換単語データ取得ステップと、
前記「変換処理の対象となる単語」と「変換すべきでない単語の一覧」とを比較して、変換すべき単語を選別する比較ステップと、
前記変換すべき単語を、取得された変換規則に従ってカタカナに変換する変換ステップと、
この変換ステップにおいて変換された文字列を、前記言語辞書に保持された発音規則に従って音声化する音声合成ステップと、
を実行させるものであることを特徴とする発話処理用プログラム。