JP7326596B2

JP7326596B2 - 音声データ作成装置

Info

Publication number: JP7326596B2
Application number: JP2022517014A
Authority: JP
Inventors: 拓加藤; 悠輔中島; 太一浅見
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2020-04-21
Filing date: 2021-04-15
Publication date: 2023-08-15
Anticipated expiration: 2041-04-15
Also published as: JPWO2021215352A1; WO2021215352A1; US20230223005A1

Description

本発明は、音声データ作成装置に関する。

音声を認識してテキストを出力する音声認識システムでは、ある単語を認識対象とさせるために、当該単語に対応する音声データが必要である。音声認識システムは、音声データを参照したり、学習したりすることにより、その単語を精度良く認識することが可能となる。音声認識システムにおける学習に用いることができる学習データを作成する技術が知られている（例えば、特許文献１参照）。この技術では、データベース中の少なくとも一人の話者の発話データを標準話者データとし、その他の発話データを学習話者データとして、標準話者データ空間から学習話者データ空間への変換関数を作成し、新たな単語について標準話者が発話したデータを、作成した変換関数を用いて学習話者データ空間にデータ変換することで学習データを作成する。

特開平１０－２７４９９２号公報

音声認識システムに認識対象として追加させるための追加単語のみが発話された音声は、文脈の情報を含まないため、単語のみの音声データを学習させても、十分な認識精度を得ることができない。また、人が追加単語を発生することにより音声データを生成する場合には、非常にコスト及び手間が嵩む。

そこで、本発明は、上記問題点に鑑みてなされたものであり、音声認識システムにおける認識対象として追加させる追加単語に関する音声データであって、当該単語が出現する文脈の情報が適切に含まれた音声データを低コストで取得することを目的とする。

上記課題を解決するために、本発明の一形態に係る音声データ作成装置は、音声認識システムにおける認識対象に追加させる単語である追加単語を含む音声データを作成する音声データ作成装置であって、複数の単語を含む文例からなるテキストコーパスを複数含むテキストコーパス群から、追加単語を含む１以上のテキストコーパスを抽出する文例抽出部と、文例抽出部により抽出されたテキストコーパスのうちの、文としての生起しやすさを示す尺度が最も高いテキストコーパスを、追加単語に対する最適文例として選択する文例選択部と、所定の音声合成システムにより生成された最適文例の合成音声を、追加単語に対応する音声データとして出力する音声作成部と、を備える。

上記の形態によれば、追加単語を含み、文として生起しやすいテキストコーパスが最適文例として選択される。従って、選択されたテキストコーパスは、追加単語の文脈の情報を含む。また、音声合成システムにより生成された最適文例の合成音声が、音声データとして出力されるので、音声データの作成に係るコストが低減される。

音声認識システムにおける認識対象として追加させる追加単語に関する音声データであって、当該単語が出現する文脈の情報が適切に含まれた音声データを低コストで取得することが可能な音声データ作成装置が実現される。

本実施形態の音声データ作成装置の機能的構成を示すブロック図である。音声データ作成装置及び判定装置のハードブロック図である。追加単語記憶部に記憶されている追加単語リストの例を示す図である。テキストコーパス群から抽出された、追加単語を含むテキストコーパスの例を示す図である。追加単語記憶部に記憶されている追加単語リストの英語の例を示す図である。テキストコーパス群から抽出された、追加単語を含むテキストコーパスの英語の例を示す図である。最適文例を選択する文例選択処理の処理内容を示すフローチャートである。各追加単語に対して選択された最適文例の例を示す図である。各追加単語に対して選択された最適文例の英語の例を示す図である。文例ひな形生成処理の処理内容を示すフローチャートである。追加単語に対応付けられたカテゴリを示す図である。カテゴリ辞書記憶部に記憶されているカテゴリ辞書の例を示す図である。追加単語に対応付けられたカテゴリの英語の例を示す図である。カテゴリ辞書記憶部に記憶されているカテゴリ辞書の英語の例を示す図である。生成された文例ひな形の一例を示す図である。生成された文例ひな形の英語の例を示す図である。文例ひな形に基づいて生成された最適文例の一例を示す図である。文例ひな形に基づいて生成された最適文例の英語の例を示す図である。音声データ作成装置における音声データ作成方法の処理内容を示すフローチャートである。音声データ作成プログラムの構成を示す図である。

本発明に係る音声データ作成装置の実施形態について図面を参照して説明する。なお、可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。

音声を認識してテキストを出力する音声認識システムでは、ある単語を認識対象とさせるために、当該単語に対応する音声データが必要である。本実施形態の音声データ作成装置は、音声認識システムにおける認識対象に追加させる単語である追加単語を含む音声データを作成する装置である。音声認識システムは、作成された音声データを学習に用いたり、参照したりすることにより、音声認識を実施する。

図１は、本実施形態に係る音声データ作成装置の機能的構成を示す図である。音声データ作成装置１０は、図１に示すように、機能的には、文例抽出部１１、文例選択部１２、合成音声選択部１３、音声作成部１４、文例ひな形生成部１５及び文例生成部１６を備える。これらの各機能部１１～１６は、一つの装置に構成されてもよいし、複数の装置に分散されて構成されてもよい。

また、音声データ作成装置１０は、追加単語記憶部２１、テキストコーパス記憶部２２及びカテゴリ辞書記憶部２３といったコンピュータ読み取り可能な記録媒体にアクセス可能に構成されている。追加単語記憶部２１、テキストコーパス記憶部２２及びカテゴリ辞書記憶部２３は、音声データ作成装置１０内に構成されてもよいし、図１に示されるように、音声データ作成装置１０の外部に別の装置として構成されてもよい。

追加単語記憶部２１は、例えば音声認識システムにおける認識対象に追加させる単語である追加単語を含む追加単語リストを記憶している記憶媒体である。テキストコーパス記憶部２２は、複数の単語を含む文例からなるテキストコーパスを複数含むテキストコーパス群を記憶している記憶媒体である。テキストコーパス群は、予め設定された特定の事項に関連するテキストコーパスである関連コーパスからなる関連コーパス群を含んでもよい。カテゴリ辞書記憶部２３は、単語と当該単語が属するカテゴリとを関連付けたカテゴリ辞書を記憶している記憶媒体である。

なお、図１に示したブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した１つの装置を用いて実現されてもよいし、物理的又は論理的に分離した２つ以上の装置を直接的又は間接的に（例えば、有線、無線などを用いて）接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記１つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。

機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知（broadcasting）、通知（notifying）、通信（communicating）、転送（forwarding）、構成（configuring）、再構成（reconfiguring）、割り当て（allocating、mapping）、割り振り（assigning）などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック（構成部）は、送信部（transmitting unit）や送信機（transmitter）と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。

例えば、本発明の一実施の形態における音声データ作成装置１０は、コンピュータとして機能してもよい。図２は、本実施形態に係る音声データ作成装置１０のハードウェア構成の一例を示す図である。音声データ作成装置１０はそれぞれ、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などを含むコンピュータ装置として構成されてもよい。

なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。音声データ作成装置１０のハードウェア構成は、図２に示した各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

音声データ作成装置１０における各機能は、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることで、プロセッサ１００１が演算を行い、通信装置１００４による通信や、メモリ１００２及びストレージ１００３におけるデータの読み出し及び／又は書き込みを制御することで実現される。

プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置（ＣＰＵ：Central Processing Unit）で構成されてもよい。例えば、図１に示した各機能部１１～１６などは、プロセッサ１００１で実現されてもよい。

また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュールやデータを、ストレージ１００３及び／又は通信装置１００４からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態で説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、音声データ作成装置１０及びの各機能部１１～１６は、メモリ１００２に格納され、プロセッサ１００１で動作する制御プログラムによって実現されてもよい。上述の各種処理は、１つのプロセッサ１００１で実行される旨を説明してきたが、２以上のプロセッサ１００１により同時又は逐次に実行されてもよい。プロセッサ１００１は、１以上のチップで実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。

メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read Only Memory）、ＥＰＲＯＭ（Erasable Programmable ＲＯＭ）、ＥＥＰＲＯＭ（Electrically Erasable Programmable ＲＯＭ）、ＲＡＭ（Random Access Memory）などの少なくとも１つで構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本発明の一実施の形態に係る音声データ作成方法及び判定方法を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ－ＲＯＭ（Compact Disc ＲＯＭ）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー（登録商標）ディスク、磁気ストリップなどの少なくとも１つで構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ１００２及び／又はストレージ１００３を含むデータベース、サーバその他の適切な媒体であってもよい。

通信装置１００４は、有線及び／又は無線ネットワークを介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。

入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、LEDランプなど）である。なお、入力装置１００５及び出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。

また、プロセッサ１００１やメモリ１００２などの各装置は、情報を通信するためのバス１００７で接続される。バス１００７は、単一のバスで構成されてもよいし、装置間で異なるバスで構成されてもよい。

また、音声データ作成装置１０は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）、ＦＰＧＡ（Field Programmable Gate Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つで実装されてもよい。

次に、音声データ作成装置１０の各機能部について説明する。文例抽出部１１は、複数の単語を含む文例からなるテキストコーパスを複数含むテキストコーパス群から、追加単語を含む１以上のテキストコーパスを抽出する。

本実施形態では、文例抽出部１１は、追加単語記憶部２１に記憶されている追加単語リストから追加単語を取得する。図３は、追加単語記憶部２１に記憶されている追加単語リストの例を示す図である。追加単語リストは、追加単語の表記及び読みを関連付けて含んでいる。図３に例示されるように、追加単語リストは、表記「Ｄ社」及び読み「ディーシャ」からなる追加単語を含む。また、追加単語リストは、表記「千代田区」及び読み「チヨダク」からなる追加単語並びに表記「Ｎ社」及び読み「エヌシャ」からなる追加単語を含む。

文例抽出部１１は、テキストコーパス記憶部２２を参照して、追加単語を含むテキストコーパスをテキストコーパス群から抽出する。図４は、テキストコーパス群から抽出された、追加単語を含むテキストコーパスの例を示す図である。図４に示されるように、文例抽出部１１は、追加単語「Ｄ社」を取得した場合には、その表記「Ｄ社」を含む「今後はＤ社で実施していきます。」及び「本日はＤ社より紹介いたします。」等のテキストコーパスをテキストコーパス群から抽出する。また、文例抽出部１１は、追加単語「千代田区」を取得した場合には、その表記「千代田区」を含む「東京都千代田区に所属しております。」及び「千代田区は東京２３区の一つである。」等のテキストコーパスをテキストコーパス群から抽出する。

なお、文例抽出部１１は、テキストコーパス群に含まれるテキストコーパスから、追加単語を含むテキストコーパスの全てを抽出してもよい。また、文例抽出部１１は、テキストコーパス群に含まれるテキストコーパスから、予め設定された所定数の、追加単語を含むテキストコーパスを抽出してもよい。

図５は、追加単語記憶部２１に記憶されている追加単語リストの英語の例を示す図である。追加単語リストは、追加単語の表記（Ｗｏｒｄ）及び読み（Ｒｅａｄｉｎｇ）を関連付けて含んでいる。図５に例示されるように、追加単語リストは、Ｗｏｒｄ ”ＣｏｍｐａｎｙＤ”及びＲｅａｄｉｎｇ ”ｋｖｕｍｐｖｕｎｉｄｉ”からなる追加単語を含む。また、追加単語リストは、Ｗｏｒｄ ”Ｃｈｉｙｏｄａ－ｋｕ”及びＲｅａｄｉｎｇ ”ｔ＿ｓｕｉｊｏｕｕｄａｕｋｕ”からなる追加単語並びにＷｏｒｄ ”Ｓｈｉｎｊｕｋｕ－ｋｕ”及びＲｅａｄｉｎｇ ”ｓｉｎｊｕｋｕｋｕ”からなる追加単語を含む。

図６は、テキストコーパス群から抽出された、追加単語を含むテキストコーパスの英語の例を示す図である。図６に示されるように、文例抽出部１１は、追加単語”ＣｏｍｐａｎｙＤ”を取得した場合には、その表記”ＣｏｍｐａｎｙＤ”を含む”This is the result of research at Company D.”及び”I am an employee of Company D.”等のテキストコーパスをテキストコーパス群から抽出する。また、文例抽出部１１は、追加単語”Ｃｈｉｙｏｄａ－ｋｕ”を取得した場合には、その表記”Ｃｈｉｙｏｄａ－ｋｕ”を含む”It is located in Chiyoda-ku, Tokyo.”及び”Have you ever been to Chiyoda-ku?”等のテキストコーパスをテキストコーパス群から抽出する。

文例選択部１２は、文例抽出部１１により抽出されたテキストコーパスのうちの、文としての生起しやすさを示す尺度が最も高いテキストコーパスを、当該追加単語に対する最適文例として選択する。具体的には、文例選択部１２は、言語モデルを用いて、文例抽出部１１により抽出された各テキストコーパスの尺度を算出してもよい。言語モデルは、文における単語の配列に基づいて各単語の生起確率を出力する確率モデルである。文に含まれる各単語の生起確率を集計（加算及び積算等）することにより、文としての生起しやすさの尺度が算出できる。

本実施形態で用いられる言語モデルには、各種の周知のモデルを適用してもよいが、その一例として、ｎ－ｇｒａｍ言語モデルであってもよい。ｎ－ｇｒａｍ言語モデルは、確率の計算対象の単語の直前に現れた（ｎ－１）個の単語に基づいて、計算対象の単語の出現確率を計算する確率モデルである。音声認識の分野では、３－ｇｒａｍ言語モデル及び４－ｇｒａｍ言語モデルが用いられる場合が多い。

以下に、３－ｇｒａｍ言語モデルによる、文「音声認識の紹介です」の生起確率の算出の例を説明する。以下の説明において、Ｐを確率、＜ｓ＞を文頭記号、＜／ｓ＞を文末記号とすると、文「音声認識の紹介です」の生起確率は、以下のように表される。
Ｐ（＜ｓ＞音声認識の紹介です＜／ｓ＞）
＝Ｐ（音声｜＜ｓ＞）Ｐ（認識│＜ｓ＞音声）Ｐ（の│音声認識）Ｐ（紹介│認識の）Ｐ（です│の紹介）Ｐ（＜／ｓ＞|紹介です）
なお、ｎ－ｇｒａｍ言語モデルの学習には、既知の如何なる手法が用いられてもよいが、例えば、最尤推定法及び線形補間等の手法であってもよい。

このように、言語モデルを用いることにより、テキストコーパスの文としての生起しやすさを示す尺度が容易に算出される。

文例選択部１２は、言語モデルを用いて、文例抽出部１１により抽出された各テキストコーパスの文としての生起し難さを示すパープレキシティを算出し、算出されたパープレキシティが最も低いテキストコーパスを、当該追加単語に対する最適文例として選択してもよい。

パープレキシティは、言語モデルに基づいて、ある文が選択される難しさを表す尺度であって、パープレキシティの値が小さいほど、文と言語モデルとが適合していることを表す。言語モデルＭに基づく文ｓのパープレキシティは、式（１）により表される。

Ｍ：言語モデル、
ｓ：単語数がＮである入力文、
ｗ_ｉ：入力文sにおいてｉ番目の単語、
Ｐ（ｗ_ｉ｜Ｍ）：言語モデルＭにおける単語ｗ_ｉの生起確率

文例選択部１２は、尺度が所定の閾値より大きく、且つ、尺度が最も高いテキストコーパスを最適文例として選択してもよい。尺度が所定の閾値より大きいテキストコーパスが最適文例として選択されることにより、追加単語の文脈の情報が一定程度以上に含まれるテキストコーパスを最適文例として選択することが可能となる。また、尺度が所定の閾値を超えるテキストコーパスが、文例抽出部１１により抽出されたテキストコーパスに存在しなければ、最適文例が選択されないので、音声データの品質が一定程度以上に維持される。

なお、文としての生起しやすさを示す尺度がパープレキシティである場合には、文例選択部１２は、パープレキシティが所定の閾値より小さく、且つ、パープレキシティが最も小さいテキストコーパスを最適文例として選択する。

図７は、最適文例を選択する文例選択処理の処理内容を示すフローチャートである。図７に示されるフローチャートは、一つの追加単語に対して行われる最適文例の選択処理である。

ステップＳ１１において、文例選択部１２は、文例抽出部１１により、追加単語を含むテキストコーパスが抽出されたか否かを判定する。追加単語を含むテキストコーパスが抽出されたと判定された場合には、処理はステップＳ１２に進む。一方、追加単語を含むテキストコーパスが抽出されたと判定されなかった場合には、処理はステップＳ１６に進む。

ステップＳ１２において、文例選択部１２は、各テキストコーパスのパープレキシティ（ＰＰＬ）を算出する。そして、ステップＳ１３において、文例選択部１２は、最も低いＰＰＬを有するテキストコーパスｓを選択する。

ステップＳ１４において、文例選択部１２は、テキストコーパスｓのパープレキシティＰＰＬ（ｓ）が所定の閾値Ｔより小さいか否かを判定する。ＰＰＬ（ｓ）が所定の閾値Ｔより小さいと判定された場合には、処理はステップＳ１５に進む。一方、ＰＰＬ（ｓ）が所定の閾値Ｔより小さいと判定されなかった場合には、処理はステップＳ１６に進む。

ステップＳ１５において、文例選択部１２は、テキストコーパスｓを最適文例として出力する。一方、ステップＳ１６において、文例選択部１２は、空の文字列を当該追加単語の最適文例として出力する。

図８は、各追加単語に対して選択された最適文例の例を示す図である。図８に示されるように、文例選択部１２は、追加単語「Ｄ社」に対する最適文例「本日はＤ社より紹介いたします。」を出力する。なお、文例選択部１２は、算出されたパープレキシティ「１２０」を併せて出力してもよい。

また、文例選択部１２は、追加単語「千代田区」に対する最適文例「東京都千代田区に所属しております。」及びそのパープレキシティ「２３０」を出力する。また、文例選択部１２は、追加単語「Ｎ社」に対する最適文例「この商品はＮ社から発売されます。」及びそのパープレキシティ「１３０」を出力する。

図９は、各追加単語に対して選択された最適文例の英語の例を示す図である。図９に示されるように、文例選択部１２は、追加単語”ＣｏｍｐａｎｙＤ”に対する最適文例”This is the result of research at Company D.”を出力する。なお、文例選択部１２は、算出されたパープレキシティ「１２０」を併せて出力してもよい。

また、文例選択部１２は、追加単語”Ｃｈｉｙｏｄａ－ｋｕ”に対する最適文例”It is located in Chiyoda-ku, Tokyo.”及びそのパープレキシティ「２３０」を出力する。また、文例選択部１２は、追加単語”ＣｏｍｐａｎｙＮ”に対する最適文例”He founded Company N.”及びそのパープレキシティ「１３０」を出力する。

テキストコーパス記憶部２２に記憶されているテキストコーパス群が、予め設定された特定の事項に関連するテキストコーパスである関連コーパスからなる関連コーパス群を含む場合には、文例抽出部１１は、テキストコーパス群のうちの、少なくとも関連コーパス群から、追加単語を含むテキストコーパスを抽出してもよい。

即ち、音声認識システムが適用される分野に関連するテキストコーパスを関連コーパスとして、文例抽出部１１が関連コーパス群からテキストコーパスを抽出することにより、当該分野において取得された音声の認識に適した音声認識システムを構成するための音声データを取得できる。

例えば、ある会議の音声を認識するための音声認識システムに、本実施形態の音声データ作成装置により作成された音声データを適用する場合には、過去の会議の議事録及び説明資料等に基づいて関連コーパス群を構成することとしてもよい。

また、特定の事項に関連する関連コーパス群からのテキストコーパスの抽出が行われる場合に、文例選択部１２は、関連コーパスに基づいて生成（学習）された言語モデルを用いて、最適文例の選択を実施してもよい。音声認識システムが適用される分野に関連する関連コーパスを用いて生成された言語モデルが用いられることにより、当該適用分野において文として生起しやすいテキストコーパスを最適文例として選択できる。

合成音声選択部１３は、合成音声の生成のための少なくとも１以上のパラメタについて、複数のパラメタ値のそれぞれにより生成された合成音声のうち、所定の音声認識処理の結果の精度が最も高い合成音声のパラメタ値を、音声合成システムにおける合成音声の生成のためのパラメタ値として選択する。

具体的には、合成音声選択部１３は、文例選択部１２により選択された最適文例に対する合成音声を、音声合成システムにより、合成音声の生成のためのパラメタを異ならせて複数生成する。例えば、あるパラメタが、連続値のうちの一の値により設定されるものである場合には、合成音声選択部１３は、予め設定された値の幅で、予め設定された数のパターンの全てのパラメタ値のそれぞれにより、合成音声を生成してもよい。例えば、あるパラメタが「１．０」を中心値とする連続値により設定されるものであり、幅０．２で５パターンの合成音声を生成することが予め設定されている場合には、合成音声選択部１３は、そのパラメタのパラメタ値を「０．６，０．８，１．０，１．２，１．４」のそれぞれに設定して、５パターンの合成音声を生成する。なお、設定されるパラメタが複数である場合には、合成音声選択部１３は、各パラメタの設定パターンの全ての組み合わせについての合成音声を生成する。なお、パラメタは、例えば、話速及び話者であるが、限定されない。

合成音声選択部１３は、生成された各パターンの合成音声を音声認識システムにより認識させ、合成に用いた最適文例と各パターンの認識結果とを比較して、各パターンの認識精度を算出する。認識精度の算出は、文字認識精度及び単語認識精度等のいずれに基づいてもよい。そして、合成音声選択部１３は、最も認識精度が高いパラメタ値のパターンを、音声合成システムにおける合成音声の生成のためのパラメタ値として選択する。

このようにパラメタ値の選択が行われることにより、音声認識処理においてより認識しやすい合成音声を出力可能なパラメタ値により、最適文例の合成音声からなる音声データが作成される。従って、音声認識システムにおける学習に供するのに好適な音声データが得られる。

音声作成部１４は、所定の音声合成システムにより生成された最適文例の合成音声を、追加単語に対応する音声データとして出力する。音声合成システムは、テキストからなる文字列の入力を受けて、音声を出力するシステムであって、例えば統計的音声合成等の一般的なアルゴリズムを含んで構成されてもよい。音声合成システムのパラメタは、一般的に、話者及び話速などである。統計的音声合成では、テキストを音素、品詞及び単語に変換し、音声合成用の音響モデルを用いて、音声波形が生成される。

図３及び図５に例示された追加単語は、それぞれ一つの読みに関連付けられているが、追加単語が、複数の読みに関連付けられていてもよい。かかる場合には、音声作成部１４は、追加単語の全ての読みのそれぞれを用いた最適文例の合成音声を、読みごとに生成してもよい。例えば、追加単語「５Ｇ」に対して、文例選択部１２により、最適文例「本日は５Ｇの紹介です。」が選択され、追加単語リストにおいて、表記「５Ｇ」に対して読み「ファイブジー、ゴジー」が関連付けられていた場合には、音声作成部１４は、テキスト「本日はファイブジーの紹介です」及びテキスト「本日はゴジーの紹介です」のそれぞれの合成音声を生成して、追加単語「５Ｇ」に対応する音声データとして出力する。

音声作成部１４は、いかなる態様で音声データを出力してもよいが、例えば、音声データを記憶させるための所定の記憶媒体に音声データ追加単語と関連付けて記憶させてもよい。

また、音声作成部１４は、合成音声選択部１３により選択されたパラメタ値を音声合成システムに適用して、最適文例の合成音声を生成する。

前述のとおり、文例選択部１２は、文としての生起しやすさを示す尺度が所定の閾値より大きいテキストコーパスが文例抽出部１１により抽出されたテキストコーパスの中に存在しない場合には、最適文例としてのテキストコーパスを選択しなくてもよい。本実施形態の音声データ作成装置１０では、最適文例としてのテキストコーパスが選択されなかった追加単語のために、追加単語を挿入する部分がブランクとされた文例からなる文例ひな形が生成されてもよい。

文例ひな形生成部１５は、単語のカテゴリごとに文例ひな形を生成する。図１０は、文例ひな形の生成対象の一のカテゴリについての、文例ひな形の生成処理の処理内容を示すフローチャートである。

ステップＳ２１において、文例ひな形生成部１５は、各追加単語にカテゴリを関連付ける。なお、文例ひな形生成部１５は、カテゴリ辞書を参照して追加単語に対するカテゴリの関連付けを実施してもよい。カテゴリ辞書は、単語とカテゴリとを関連付けた辞書である。図１１は、カテゴリが関連付けられた追加単語の例を示す図である。図１２は、カテゴリ辞書記憶部２３に記憶されているカテゴリ辞書の例を示す図である。

図１２に示されるように、カテゴリ辞書は、カテゴリがそれぞれ関連付けられた単語を含んでいる。文例ひな形生成部１５は、カテゴリ辞書を参照して、追加単語「Ｄ社」のカテゴリ「企業名」を取得し、図１１に示すように、追加単語「Ｄ社」にカテゴリ「企業名」を関連付ける。同様に、文例ひな形生成部１５は、追加単語「千代田区」にカテゴリ「地名」を関連付け、追加単語「Ｎ社」にカテゴリ「企業名」を関連付ける。

なお、追加単語がカテゴリ辞書に含まれていない場合には、文例ひな形生成部１５は、当該追加単語に関連付けるべきカテゴリとしてユーザにより入力されたカテゴリを取得し、取得したカテゴリを当該追加単語に関連付けてもよい。

図１３は、カテゴリが関連付けられた追加単語の英語の例を示す図である。図１４は、カテゴリ辞書記憶部２３に記憶されているカテゴリ辞書の英語の例を示す図である。図１４に示されるように、カテゴリ辞書は、カテゴリがそれぞれ関連付けられた単語を含んでいる。文例ひな形生成部１５は、カテゴリ辞書を参照して、追加単語”ＣｏｍｐａｎｙＤ”のカテゴリ”Ｃｏｍｐａｎｙ”を取得し、図１３に示すように、追加単語”ＣｏｍｐａｎｙＤ”にカテゴリ”Ｃｏｍｐａｎｙ”を関連付ける。同様に、文例ひな形生成部１５は、追加単語”Ｃｈｉｙｏｄａ－ｋｕ”にカテゴリ”Ｐｌａｃｅ”を関連付け、追加単語”ＣｏｍｐａｎｙＮ”にカテゴリ”Ｃｏｍｐａｎｙ”を関連付ける。

ステップＳ２２において、文例ひな形生成部１５は、文例ひな形の生成対象のカテゴリに含まれるいずれかの追加単語に対して、少なくとも一つの最適文例の文例選択部１２による関連付けはあるか否かを判定する。なお、以下において、文例ひな形の生成対象のカテゴリが、カテゴリ「企業名」である例を説明する。具体的には、文例ひな形生成部１５は、図８及び図９に例示される追加単語に対する最適文例の関連付けを参照して、最適文例が関連付けられた、カテゴリが「企業名」（Ｃｏｍｐａｎｙ）である追加単語が存在するか否かを判定する。最適文例の関連付けがあると判定された場合には、処理はステップＳ２３に進む。一方、最適文例の関連付けがあると判定されなかった場合には、処理はステップＳ２５に進む。

ステップＳ２３において、文例ひな形生成部１５は、文例ひな形の生成対象のカテゴリに含まれる追加単語に関連付けられた最適文例のうち、最も低いパープレキシティを有する文例を選択する。図８に示す例では、文例ひな形生成部１５は、カテゴリが「企業名」である追加単語「Ｄ社」及び「Ｎ社」のそれぞれに関連付けられた最適文例のうち、パープレキシティが最も低い文例「本日はＤ社より紹介いたします。」を選択する。

また、図９に示す例では、文例ひな形生成部１５は、カテゴリが”Ｃｏｍｐａｎｙ”である追加単語”ＣｏｍｐａｎｙＤ”及び”ＣｏｍｐａｎｙＮ”のそれぞれに関連付けられた最適文例のうち、パープレキシティが最も低い文例”This is the result of research at Company D.”を選択する。

ステップＳ２４において、文例ひな形生成部１５は、ステップＳ２３において選択した文例から、追加単語の部分を除いてブランクとした文例ひな形を生成する。図１５は、生成された文例ひな形の一例を示す図である。図１５に示されるように、文例ひな形生成部１５は、カテゴリが「企業名」である追加単語「Ｄ社」に対して選択された文例「本日はＤ社より紹介いたします。」から、追加単語「Ｄ社」の部分を除いてブランクとした文例ひな形「本日は＜＞より紹介いたします。」を生成する。

図１６は、生成された文例ひな形の英語の例を示す図である。図１６に示されるように、文例ひな形生成部１５は、カテゴリが”Ｃｏｍｐａｎｙ”である追加単語”ＣｏｍｐａｎｙＤ”に対して選択された文例”This is the result of research at Company D.”から、追加単語”ＣｏｍｐａｎｙＤ”の部分を除いてブランクとした文例ひな形”This is the result of research at < >.”を生成する。

一方、文例ひな形の生成対象のカテゴリの追加単語に対して最適文例の関連付けがない場合には（Ｓ２２）、ステップＳ２５において、文例ひな形生成部１５は、カテゴリ辞書を参照して、文例ひな形の生成対象のカテゴリの他の単語を選択する。

ステップＳ２６において、文例ひな形生成部１５は、ステップＳ２５において選択した単語を含むテキストコーパスを、テキストコーパス群から抽出する。

ステップＳ２７において、文例ひな形生成部１５は、ステップＳ２６において抽出したテキストコーパスのパープレキシティが所定の閾値Ｔ未満であるか否かを判定する。パープレキシティが閾値Ｔ未満であると判定された場合には、処理はステップＳ２８に進む。一方、パープレキシティが閾値Ｔ未満であると判定されなかった場合には、処理はステップＳ２９に進む。

ステップＳ２８において、文例ひな形生成部１５は、ステップＳ２６において抽出したテキストコーパスから、ステップＳ２５において選択した単語の部分を除いてブランクとした文例ひな形を生成する。

ステップＳ２９において、文例ひな形生成部１５は、ステップＳ２５において選択した単語を含むテキストコーパスのテキストコーパス群からの更なる抽出を試みる。テキストコーパス群を更に抽出可能である場合には、処理はステップＳ２６に戻り、文例ひな形生成部１５は、テキストコーパスを抽出する。一方、テキストコーパス群を更に抽出可能ではない場合には、処理はステップＳ３０に進む。

ステップＳ３０において、文例ひな形生成部１５は、カテゴリ辞書を参照して、ステップＳ２５において選択した単語とは異なる同カテゴリの他の単語の更なる選択を試みる。他の単語を更に選択可能である場合には、処理はステップＳ２５に戻り、文例ひな形生成部１５は、他の単語を選択する。他の単語を更に選択可能ではない場合には、処理はステップＳ３１に進む。

ステップＳ３１において、文例ひな形生成部１５は、ステップＳ２６において抽出されたテキストコーパスの中で最もパープレキシティが低いテキストコーパスから、ステップＳ２５において選択した単語の部分を除いてブランクとした文例ひな形を生成する。

ステップＳ３２において、文例ひな形生成部１５は、ステップＳ２４，Ｓ２８，Ｓ３１のいずれかにおいて生成した文例ひな形を出力する。具体的には、文例ひな形生成部１５は、文例生成部１６に生成した文例ひな形を送出してもよい。また、文例ひな形生成部１５は、文例ひな形を記憶させるための所定の記憶媒体に、生成した文例ひな形を記憶させてもよい。

文例生成部１６は、文例選択部１２により最適文例が選択されなかった追加単語を、当該追加単語が属するカテゴリについて生成された文例ひな形のブランクに挿入して、当該追加単語に対する最適文例を生成する。図１７は、文例ひな形に基づいて生成された最適文例の一例を示す図である。図１７に示される例では、カテゴリが「企業名」である追加単語「Ｚ社」に対して、文例選択部１２により最適文例が選択されなかったこととする。かかる場合には、文例生成部１６は、カテゴリ「企業名」に対して生成された文例ひな形「本日は＜＞より紹介いたします。」を取得し（図１５参照）、追加単語「Ｚ社」を文例ひな形のブランク「＜＞」に挿入して、追加単語「Ｚ社」に対する最適文例「本日はＺ社より紹介いたします。」を生成する。

図１８は、文例ひな形に基づいて生成された最適文例の英語の例を示す図である。図１８に示される例では、カテゴリが”Ｃｏｍｐａｎｙ”である追加単語”ＣｏｍｐａｎｙＺ”に対して、文例選択部１２により最適文例が選択されなかったこととする。かかる場合には、文例生成部１６は、カテゴリ”Ｃｏｍｐａｎｙ”に対して生成された文例ひな形”This is the result of research at < >.”を取得し（図１６参照）、追加単語”ＣｏｍｐａｎｙＺ”を文例ひな形のブランク”< >”に挿入して、追加単語”ＣｏｍｐａｎｙＺ”に対する最適文例”This is the result of research at Company Z.”を生成する。

図１０を参照して説明した文例ひな形の生成によれば、同一のカテゴリに属する各追加単語に対して最適文例として選択されたテキストコーパスの中から、尺度が最も高いテキストコーパスに基づいて文例ひな形が生成されるので、当該カテゴリに属する他の単語をブランクに挿入することにより、文として生起しやすい文例を生成できる。そして、このように生成された文例ひな形を用いることにより、最適文例が選択されなかった追加単語に対しても、最適文例を生成することが可能となる。

図１９は、音声データ作成装置１０における音声データ作成方法の処理内容を示すフローチャートである。

ステップＳ１において、文例抽出部１１は、テキストコーパス群から追加単語を含むテキストコーパスを全て抽出する。

ステップＳ２において、文例選択部１２は、文例抽出部１１により抽出されたテキストコーパスのうちの、文としての生起しやすさを示す尺度が最も高いテキストコーパスを、当該追加単語に対する最適文例として選択する。本実施形態では、文例選択部１２は、パープレキシティが最も低いテキストコーパスを最適文例として選択する。

ステップＳ３において、合成音声選択部１３は、合成音声の出力のためのパラメタ値を選択する。なお、ステップＳ３の処理は、本実施形態の音声データ作成方法において必須ではない。

ステップＳ４において、音声作成部１４は、音声合成システムにより合成された最適文例の合成音声を、追加単語に対応する音声データとして出力する。

次に、図２０を参照して、コンピュータを、本実施形態の音声データ作成装置１０として機能させるための音声データ作成プログラムについて説明する。

音声データ作成プログラムＰ１は、音声データ作成装置１０における音声データ作成処理を統括的に制御するメインモジュールｍ１０、文例抽出モジュールｍ１１、文例選択モジュールｍ１２、合成音声選択モジュールｍ１３、音声作成モジュールｍ１４、文例ひな形生成モジュールｍ１５及び文例生成モジュールｍ１６を備えて構成される。そして、各モジュールｍ１１～ｍ１６により、文例抽出部１１、文例選択部１２、合成音声選択部１３、音声作成部１４、文例ひな形生成部１５及び文例生成部１６のための各機能が実現される。

なお、音声データ作成プログラムＰ１は、通信回線等の伝送媒体を介して伝送される態様であってもよいし、図２０に示されるように、記録媒体Ｍ１に記憶される態様であってもよい。

以上説明した本実施形態の音声データ作成装置１０、音声データ作成方法、音声データ作成プログラムＰ１によれば、追加単語を含み、文として生起しやすいテキストコーパスが最適文例として選択される。従って、選択されたテキストコーパスは、追加単語の文脈の情報を含む。また、音声合成システムにより生成された最適文例の合成音声が、音声データとして出力されるので、音声データの作成に係るコストが低減される。

また、別の形態に係る音声データ作成装置では、文例選択部は、文における単語の配列に基づいて各単語の生起確率を出力する言語モデルを用いて、文例抽出部により抽出された各テキストコーパスの尺度を算出してもよい。

上記の形態によれば、テキストコーパスの文としての生起しやすさを示す尺度が容易に算出される。

また、別の形態に係る音声データ作成装置では、文例選択部は、言語モデルを用いて、文例抽出部により抽出された各テキストコーパスの、文としての生起し難さを示すパープレキシティを算出し、算出されたパープレキシティが最も低いテキストコーパスを、追加単語に対する最適文例として選択してもよい。

上記の形態によれば、言語モデルを用いて算出されたパープレキシティが最も低いテキストコーパスが最適文例として選択される。従って、追加単語を含むと共に文として生起しやすいテキストコーパスが選択される。

また、別の形態に係る音声データ作成装置では、テキストコーパス群は、予め設定された特定の事項に関連するテキストコーパスである関連コーパスからなる関連コーパス群を含み、文例抽出部は、テキストコーパス群のうちの、少なくとも関連コーパス群から、追加単語を含むテキストコーパスを抽出し、文例選択部は、関連コーパスに基づいて生成された言語モデルを用いて最適文例を選択してもよい。

上記の形態によれば、関連コーパスを、例えば音声認識システムが適用される分野に関連するテキストコーパスにより構成することにより、適用分野に適したテキストコーパスが抽出される。また、適用分野に関連するテキストコーパスを用いて生成された言語モデルが用いられるので、当該適用分野において文として生起しやすいテキストコーパスを最適文例として選択できる。

また、別の形態に係る音声データ作成装置は、合成音声の生成のための少なくとも１以上のパラメタについて、複数のパラメタ値のそれぞれにより生成された合成音声のうち、音声認識システムによる音声認識処理の結果の精度が最も高い合成音声のパラメタ値を、音声合成システムにおける合成音声の生成のためのパラメタ値として選択する合成音声選択部を更に備えてもよい。

上記の形態によれば、音声認識処理においてより認識しやすい合成音声を出力可能なパラメタ値により、最適文例の合成音声からなる音声データが作成される。従って、音声認識システムにおける学習に供するのに好適な音声データが得られる。

また、別の形態に係る音声データ作成装置では、文例選択部は、尺度が所定の閾値より大きく、且つ、最も高いテキストコーパスを最適文例として選択してもよい。

上記の形態によれば、尺度が所定の閾値より大きいテキストコーパスが最適文例として選択されるので、追加単語の文脈の情報が一定程度以上に含まれるテキストコーパスを最適文例として選択することが可能となる。また、尺度が所定の閾値を超えるテキストコーパスが、抽出されたテキストコーパスに存在しなければ、最適文例が選択されないので、音声データの品質が一定程度以上に維持される。

また、別の形態に係る音声データ作成装置では、各追加単語は、当該単語が属するカテゴリに関連付けられており、音声データ作成装置は、文例選択部により最適文例が選択された追加単語及び当該最適文例としてのテキストコーパスのうち、同一のカテゴリに属する各追加単語に対して最適文例として選択されたテキストコーパスの尺度が最も高い追加単語及びテキストコーパスを取得し、取得したテキストコーパスに基づいて、追加単語の部分をブランクとした文例ひな形を、カテゴリごとに生成する、文例ひな形生成部と、文例選択部により最適文例が選択されなかった追加単語を、当該追加単語が属するカテゴリについて生成された文例ひな形のブランクに挿入して、当該追加単語に対する最適文例を生成する、文例生成部、を更に備えてもよい。

上記の形態によれば、同一のカテゴリに属する各追加単語に対して最適文例として選択されたテキストコーパスの中から、尺度が最も高いテキストコーパスに基づいて文例ひな形が生成されるので、当該カテゴリに属する他の単語をブランクに挿入することにより、文として生起しやすい文例を生成できる。そして、このように生成された文例ひな形を用いることにより、最適文例が選択されなかった追加単語に対しても、最適文例を生成することが可能となる。

また、別の形態に係る音声データ作成装置では、各追加単語は、当該単語の１以上の読みに関連付けられており、音声作成部は、追加単語の全ての読みのそれぞれを用いた最適文例の合成音声を、読みごとに生成してもよい。

上記の形態によれば、追加単語に複数の読みが想定される場合には、複数の読みの全ていついての音声データを網羅的に生成できる。

以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。

本明細書で説明した各態様／実施形態は、ＬＴＥ（Long Term Evolution）、ＬＴＥ－Ａ（LTE-Advanced）、ＳＵＰＥＲ３Ｇ、ＩＭＴ－Ａｄｖａｎｃｅｄ、４Ｇ、５Ｇ、ＦＲＡ（Future Radio Access）、Ｗ－ＣＤＭＡ（登録商標）、ＧＳＭ（登録商標）、ＣＤＭＡ２０００、ＵＭＢ（Ultra Mobile Broadband）、ＩＥＥＥ８０２．１１（Ｗｉ－Ｆｉ）、ＩＥＥＥ８０２．１６（ＷｉＭＡＸ）、ＩＥＥＥ８０２．２０、ＵＷＢ（Ultra-WideBand）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、その他の適切なシステムを利用するシステム及び／又はこれらに基づいて拡張された次世代システムに適用されてもよい。

本明細書で説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本明細書で説明した方法については、例示的な順序で様々なステップの要素を提示しており、提示した特定の順序に限定されない。

入出力された情報等は特定の場所(例えば、メモリ)に保存されてもよいし、管理テーブルで管理してもよい。入出力される情報等は、上書き、更新、または追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：trueまたはfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

本明細書で説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。

ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

また、ソフトウェア、命令などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア及びデジタル加入者回線（ＤＳＬ）などの有線技術及び／又は赤外線、無線及びマイクロ波などの無線技術を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び／又は無線技術は、伝送媒体の定義内に含まれる。

本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。

なお、本開示において説明した用語及び／又は本明細書の理解に必要な用語については、同一の又は類似する意味を有する用語と置き換えてもよい。

本明細書で使用する「システム」および「ネットワーク」という用語は、互換的に使用される。

また、本明細書で説明した情報、パラメタなどは、絶対値で表されてもよいし、所定の値からの相対値で表されてもよいし、対応する別の情報で表されてもよい。

本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking up、search、inquiry)（例えば、テーブル、データベース又は別のデータ構造での探索）、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)（例えば、情報を受信すること）、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)（例えば、メモリ中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断（決定）」は、「想定する（assuming）」、「期待する（expecting）」、「みなす（considering）」などで読み替えられてもよい。

本開示で使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

本明細書で「第１の」、「第２の」などの呼称を使用した場合においては、その要素へのいかなる参照も、それらの要素の量または順序を全般的に限定するものではない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本明細書で使用され得る。したがって、第１および第２の要素への参照は、２つの要素のみがそこで採用され得ること、または何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

「含む（include）」、「含んでいる（including）」、およびそれらの変形が、本明細書あるいは特許請求の範囲で使用されている限り、これら用語は、用語「備える(comprising)」と同様に、包括的であることが意図される。さらに、本明細書あるいは特許請求の範囲において使用されている用語「または（or）」は、排他的論理和ではないことが意図される。

本明細書において、文脈または技術的に明らかに1つのみしか存在しない装置である場合以外は、複数の装置をも含むものとする。

本開示の全体において、文脈から明らかに単数を示したものではなければ、複数のものを含むものとする。

１０…音声データ作成装置、１１…文例抽出部、１２…文例選択部、１３…合成音声選択部、１４…音声作成部、１５…文例ひな形生成部、１６…文例生成部、２１…追加単語記憶部、２２…テキストコーパス記憶部、２３…カテゴリ辞書記憶部、２３…カテゴリ辞書記憶部、Ｍ１…記録媒体、ｍ１０…メインモジュール、ｍ１１…文例抽出モジュール、ｍ１２…文例選択モジュール、ｍ１３…合成音声選択モジュール、ｍ１４…音声作成モジュール、ｍ１５…文例ひな形生成モジュール、ｍ１６…文例生成モジュール、Ｐ１…音声データ作成プログラム。

Claims

音声認識システムにおける認識対象に追加させる単語である追加単語を含む音声データを作成する音声データ作成装置であって、
複数の単語を含む文例からなるテキストコーパスを複数含むテキストコーパス群から、前記追加単語を含む１以上のテキストコーパスを抽出する文例抽出部と、
前記文例抽出部により抽出された前記テキストコーパスのうちの、文としての生起しやすさを示す尺度が最も高いテキストコーパスを、前記追加単語に対する最適文例として選択する文例選択部と、
所定の音声合成システムにより生成された前記最適文例の合成音声を、前記追加単語に対応する音声データとして出力する音声作成部と、
を備える音声データ作成装置。
前記文例選択部は、文における単語の配列に基づいて各単語の生起確率を出力する言語モデルを用いて、前記文例抽出部により抽出された各テキストコーパスの前記尺度を算出する、
請求項１に記載の音声データ作成装置。
前記文例選択部は、前記言語モデルを用いて、前記文例抽出部により抽出された各テキストコーパスの、文としての生起し難さを示すパープレキシティを算出し、算出されたパープレキシティが最も低いテキストコーパスを、前記追加単語に対する最適文例として選択する、
請求項２に記載の音声データ作成装置。
前記テキストコーパス群は、予め設定された特定の事項に関連するテキストコーパスである関連コーパスからなる関連コーパス群を含み、
前記文例抽出部は、前記テキストコーパス群のうちの、少なくとも前記関連コーパス群から、前記追加単語を含むテキストコーパスを抽出し、
前記文例選択部は、前記関連コーパスに基づいて生成された前記言語モデルを用いて前記最適文例を選択する、
請求項２または３に記載の音声データ作成装置。
前記合成音声の生成のための少なくとも１以上のパラメタについて、複数のパラメタ値のそれぞれにより生成された合成音声のうち、前記音声認識システムによる音声認識処理の結果の精度が最も高い合成音声のパラメタ値を、前記音声合成システムにおける合成音声の生成のためのパラメタ値として選択する合成音声選択部、を更に備える、
請求項１～４のいずれか一項に記載の音声データ作成装置。
前記文例選択部は、前記尺度が所定の閾値より大きく、且つ、最も高いテキストコーパスを最適文例として選択する、
請求項１～５のいずれか一項に記載の音声データ作成装置。
各追加単語は、当該単語が属するカテゴリに関連付けられており、
前記音声データ作成装置は、
前記文例選択部により最適文例が選択された前記追加単語及び当該最適文例としての前記テキストコーパスのうち、同一のカテゴリに属する各追加単語に対して最適文例として選択された前記テキストコーパスの前記尺度が最も高い前記追加単語及び前記テキストコーパスを取得し、取得した前記テキストコーパスに基づいて、前記追加単語の部分をブランクとした文例ひな形を、前記カテゴリごとに生成する、文例ひな形生成部と、
前記文例選択部により前記最適文例が選択されなかった前記追加単語を、当該追加単語が属するカテゴリについて生成された前記文例ひな形の前記ブランクに挿入して、当該追加単語に対する前記最適文例を生成する、文例生成部、
を更に備える、
請求項６に記載の音声データ作成装置。
各追加単語は、当該単語の１以上の読みに関連付けられており、
前記音声作成部は、前記追加単語の全ての読みのそれぞれを用いた前記最適文例の合成音声を、前記読みごとに生成する、
請求項１～７のいずれか一項に記載の音声データ作成装置。