JP2010160316A

JP2010160316A - 情報処理装置及びテキスト読み上げ方法

Info

Publication number: JP2010160316A
Application number: JP2009002346A
Authority: JP
Inventors: Noriaki Otani; 教明大谷
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2009-01-08
Filing date: 2009-01-08
Publication date: 2010-07-22
Also published as: EP2207165B1; US20100174545A1; EP2207165A1; US8719028B2

Abstract

【課題】情報の一部が欠けていても自然な音声フレーズの組み立てにより自然なトークバックをすることが可能な「情報処理装置及びテキスト読み上げ方法」を提供すること。
【解決手段】楽曲を再生する情報処理装置１００は、音声読み上げ手段６と、ユーザの質問に対する回答の定型文及び定型文の変換規則が格納された記憶手段１０と、ユーザからの質問を入力する入力手段２と、楽曲データを格納した機器から楽曲データ及び楽曲データに付随した楽曲情報を取得する制御手段１とを有する。制御手段１は、ユーザからの楽曲に対する質問を解析して質問に応じた回答文の定型文を選択し、楽曲の楽曲情報から定型文に含まれる置換記号部分を置換する文字を検出して文字が音声再生可能か否かに応じて定型文を変換し、変換した定型文を用いて音声読み上げ用のテキストを生成し、テキストを音声読み上げ手段を介して読み上げさせる。
【選択図】図１

Description

本発明は、情報処理装置及びテキスト読み上げ方法に関し、特に、テキスト情報を音声で読み上げる機能（ＴＴＳ(Text To Speech)エンジン）を備えた情報処理装置において読み上げるテキストを生成する技術に関する。

近年、テキストを入力するとそれを音声で読み上げる機能（ＴＴＳエンジン）を備えたシステムが開発され、携帯電話の電話応答サービスなどで広く利用されている。例えば、個人向けポータブルサービスで、ユーザの身近にモバイル端末やコンピュータがないという状況でも、電話をかければＥメールやニュース、市場動向等の情報を読み上げてくれる音声サービスとして使用されている。

一方、再生用のオーディオ情報を格納した機器をオーディオ装置に接続して、オーディオ情報を基に音楽を再生出力することが行われている。このようなオーディオ情報としては楽曲データがあり、楽曲データには、楽曲のデジタルデータとともに楽曲のタイトルやアーティスト等の情報が記載されたタグデータが含まれている。このタグデータを基にして再生されている楽曲のタイトル等を表示画面に表示したり、ＴＴＳエンジンを利用して音声で読み上げることもできるようになってきている。

ＴＴＳエンジンを利用した音声の読み上げでは、ＴＴＳエンジンに入力されるテキストを忠実に音声信号に変換している。そのため、正確なテキストをＴＴＳエンジンに入力することが要求される。ＴＴＳエンジンへ正確なテキストを入力する方法として、特許文献１には、ＴＴＳエンジンに入力するテキストのスペルをチェックしたり、曖昧なテキストをユーザに問い合わせて正しいテキストに変換する技術が記載されている。

特表２００７−５０９３７７号公報

上述したように、デジタルオーディオの曲名やアーティスト名等のタグ情報（楽曲情報）を、テキスト−音声変換機能を用いることにより音声で聞くことが可能である。これらの情報は、予め用意されている定型文の所定の置換記号を、デジタルオーディオから取得した楽曲情報の文字に置換することによって音声に変換するテキストを生成している。

この定型文に使用される楽曲情報のすべてが音声再生可能であれば、生成されるテキストは文法的に間違いがなく、質問に対して適切な音声応答がされる。

しかし、ＴＴＳエンジンが対応不可能な文字、例えば、米国英語を対象としている場合にタグ情報として漢字が含まれていると、その漢字の部分は音声再生不可能であるため、通常その部分を空白としている。そのため、空白部分の出力音声は無音状態となる。この場合であっても、定型文の空白に置換された部分以外は音声変換されるため、不自然な文の出力になってしまう。例えば、"What song is this？" という質問に対する回答の定型文が、"It is <Song> by <Artist>." であり、<Song>は曲名で置換され、<Artist>はアーティスト名で置換されるものとする。このとき、曲名が "Happy Song"であり、アーティスト名が存在していないとすると、回答文は "It is Happy Song by" となり、不自然な音声出力となってしまう。

本発明は、かかる従来技術の課題に鑑みなされたものであり、情報の一部が欠けていても自然な音声フレーズの組み立てにより自然なトークバックをすることが可能な情報処理装置及びテキスト読み上げ方法を提供することを目的とする。

上述した従来技術の課題を解決するため、本発明の基本形態によれば、再生用の楽曲データを格納した機器と通信可能に接続される情報処理装置であって、テキストを音声データに変換して出力する機能を有した音声読み上げ手段と、ユーザの質問に対する回答の定型文及び定型文の変換規則が格納された記憶手段と、ユーザからの質問を入力する入力手段と、前記楽曲データを格納した機器から楽曲データ及び当該楽曲データに付随した楽曲情報を取得する制御手段とを有し、前記制御手段は、ユーザからの楽曲に対する質問を解析して当該質問に応じた回答文の定型文を選択し、当該楽曲の楽曲情報から定型文に含まれる置換記号部分を置換する文字を検出して当該文字が音声再生可能か否かに応じて前記定型文を変換し、当該変換した定型文を用いて音声読み上げ用のテキストを生成し、当該テキストを前記音声読み上げ手段を介して読み上げさせることを特徴とする情報処理装置が提供される。

この形態に係る情報処理装置において、前記制御手段は、前記楽曲のジャンルに応じて、前記定型文を選択するようにしてもよく、前記制御手段は、前記楽曲情報のいずれかが音声再生不可能であると判定したとき、前記定型文から当該楽曲情報に置換される置換記号を含む修飾語句相当部分を削除した定型文を用いてテキストを生成するか、又は新たな定型文を用いてテキストを生成するようにしてもよい。

また、この形態に係る情報処理装置において、前記制御手段は、前記楽曲情報のうち、アーティスト名が音声再生不可能であると判定したとき、前記定型文から当該アーティスト名に置換される置換記号を含む修飾語句相当部分を削除した定型文を用いてテキストを生成するようにしてもよく、前記制御手段は、前記楽曲情報のうち、アルバム名が音声再生不可能であると判定したとき、前記定型文から当該アルバム名に置換される置換記号を含む修飾語句相当部分を削除した定型文を用いてテキストを生成するようにしてもよく、前記制御手段は、前記楽曲情報のうち、楽曲名が音声再生不可能であると判定したとき、当該楽曲のアーティスト名に置換される置換記号を文の要素とする新たな定型文及び当該楽曲のアルバム名に置換される置換記号を文の要素とする新たな定型文を前記記憶手段から抽出し、当該定型文を用いてテキストを生成するようにしてもよい。

本発明の情報処理装置によれば、デジタルオーディオ機器から取得した楽曲を再生出力しているとき、ユーザからの曲情報の質問に対して定型文を基に回答文を生成している。この回答文の生成において、楽曲情報のうち読み上げができない文字についてはスペースに置き換えるとともに、定型文を一部変更して文法的に不備のないテキストに変換して、ＴＴＳエンジンにより音声出力している。例えば、"What am I listening to？" という質問に対する回答の定型文が、"This Song is called <Song> by <Artist> from <Album>."であり、<Song>が曲名に、<Artist>がアーティスト名に、<Album>がアルバム名に置換されるとき、アーティスト名が再生不可能な文字だと判断されると、回答の定型文は、"This Song is called <Song> from <Album>."として音声出力するテキストが生成される。

このように、再生不可能な文字をスペースに変換するとともにその文字及びその文字にかかる前置詞とをあわせた修飾語句に相当する部分を定型文から削除してテキストを生成しているので、自然な文章を音声出力することが可能になる。

また、本発明の他の形態によれば、ユーザからの楽曲に対する質問を解析するステップと、記憶手段に格納されている回答文の定型文から、前記質問に応じた定型文を抽出するステップと、前記楽曲の楽曲情報から前記定型文に含まれる置換記号部分を置換する文字を検出するステップと、当該文字が音声再生可能か否かに応じて前記定型文を変換するステップと、前記変換された定型文の置換記号を当該文字に置換して音声読み上げ用のテキストを生成するステップと、前記テキストを音声データに変換して出力するステップと、を有することを特徴とするテキスト読み上げ方法が提供される。

この形態に係るテキスト読み上げ方法において、前記定型文を抽出するステップは、前記記憶手段に格納されている回答文の定型文から、前記質問に応じた回答文の定型文の候補を選択するステップと、前記楽曲情報を解析して当該楽曲のジャンルを検出するステップと、前記定型文の候補の中から当該ジャンルに応じた定型文を選択するステップと、を含むようにしてもよい。

また、この形態に係るテキスト読み上げ方法において、前記定型文を変換するステップは、前記楽曲情報のいずれかが音声再生不可能か否かを判定するステップと、前記楽曲情報のいずれかが音声再生不可能であると判定したとき、前記定型文を新たな定型文に変換するステップと、を含むようにしてもよい。

本発明の一実施形態に係る情報処理装置の構成を示すブロック図である。図２（ａ）は、音声再生可能な文字及び音声再生不可能な文字を示す文字コード一覧であり、図２（ｂ）は、文字変換規則の一例を示す図である。図３（ａ）は、質問に対する回答の基本定型文の一例を示す図であり、図３（ｂ）は、基本定型文の変換規則の一例を示す図である。図４（ａ）は、デジタルオーディオ機器から取得した楽曲データの一例を示す図であり、図４（ｂ）は、抽出した楽曲情報のデータをＴＴＳ入力用のデータに変換する例を示した図である。ＴＴＳによるテキスト読み上げ処理の一例を示すフローチャートである。質問が楽曲の場合の回答処理の一例を示すフローチャートである。音声再生不可能な楽曲情報項目に応じた回答文テキスト生成処理の一例を示すフローチャート（その１）である。音声再生不可能な楽曲情報項目に応じた回答文テキスト生成処理の一例を示すフローチャート（その２）である。

以下、本発明の実施形態について、添付の図面を参照して説明する。

図１は、本発明の一実施形態に係る情報処理装置１００の構成を示した図である。

本実施形態に係る情報処理装置１００は、図１に示すように、制御部１（オーディオ制御部１ａ及び音声認識／ＴＴＳ制御部１ｂ）と、音声入力部２と、音声認識エンジン４と、読み上げ文字列生成部５と、ＴＴＳエンジン６と、音声再生部７と、表示部８と、マイク３と、スピーカー９と、記憶部１０を備えている。

また、情報処理装置１００とデジタルオーディオ機器１２とがオーディオバス１１を介して接続されている。デジタルオーディオ機器１２としては、例えば、外付けオーディオ機器１２ａや、ＨＤＤオーディオ１２ｂ、ＣＤテキスト１２ｃがある。ＨＤＤオーディオ１２ｂは記憶装置にハードディスクを内蔵した携帯音楽プレーヤーであり、ＣＤテキスト１２ｃは、ＣＤ−ＴＥＸＴ規格に対応したプレーヤーであり、ＣＤのタイトルや作曲家などのテキスト情報が表示されるものである。

デジタルオーディオ機器１２には、例えば、インターネット等を介して配信されたＭＰ３形式等の楽曲ファイルをパーソナルコンピュータ（ＰＣ）にいったんダウンロードし、さらにこのＰＣから転送された楽曲ファイルが格納されている。この楽曲ファイルには、再生用のオーディオ情報の他に、このオーディオ情報を特定する楽曲情報（タイトル、アーティスト名、アルバム名など）が含まれている。

オーディオ制御部１ａは、マイクロコンピューターにより構成され、オーディオ再生情報をデジタルオーディオ機器１２から取得し、液晶パネルや有機ＥＬパネル等により構成される表示部８に表示させる制御を行う。また、オーディオ再生情報から再生する楽曲に関する情報を抽出して、音声認識／ＴＴＳ制御１ｂ部に引き渡す。

音声入力部２は、マイク３を介してユーザの音声を入力し、音声信号のデータに変換し、変換した音声データを音声認識／ＴＴＳ制御部１ｂに引き渡す。

音声再生部７は、ＴＴＳエンジン６によりテキストから変換された音声データを入力し、その音声データに従って音声を再生して音声信号を増幅し、スピーカー９に供給する処理を行う。

音声認識／ＴＴＳ制御部１ｂは、再生中の楽曲に関する情報を、必要なときにそのつどオーディオ制御部１ａを介して取得する。

また、音声認識／ＴＴＳ制御部１ｂは、音声の入力から出力までの全体の制御を行う。音声認識／ＴＴＳ制御部１ｂは、マイク３及び音声入力部２を介して入力したユーザの発話音声を音声認識エンジン４に認識させる。音声認識は一般の認識処理と同様に、入力された音声を音響分析して特徴量を算出し、特徴量から発話に対応する音響モデル１０ａ（予めデータ化されてメモリに格納されている）を抽出する。この音響モデル１０ａと音声認識辞書１０ｂに格納された辞書の単語とを基に認識する。

読み上げ文字列生成部５は、ＴＴＳエンジン６に入力する音声読み上げの対象となる文字列を生成する。この文字列は、ユーザの質問に対する回答の定型文と、定型文の置換記号の部分を置換する楽曲に関する情報とを組み合わせて生成される。また、本発明に関連する機能として、定型文の置換記号の部分を置換する文字が音声再生不可能な文字であると判定されたときに、その置換記号の部分を含む修飾語句に相当する部分を削除した新たな定型文に変換する。

ＴＴＳエンジン６は、読み上げ用の文字列（テキスト）を入力すると、ＴＴＳデータ１０ｄに含まれている言語解析辞書を基にテキスト情報を解析し、読みとアクセントを記した文字列である中間言語を生成する。この中間言語は、ＴＴＳデータ１０ｄに含まれている音声合成辞書を参照して音声（波形）データに変換する。

記憶部１０は、ハードディスクや半導体メモリ等で構成され、音声認識エンジン４で使用する音響モデル１０ａや音声認識辞書１０ｂ、読み上げ文字列生成部５で参照する文字列処理テーブル１０ｃ、ＴＴＳエンジン６で読み込まれるＴＴＳデータ１０ｄが、それぞれ領域を分けて格納されている。また、記憶部１０には、デジタルオーディオ機器１２から取得した再生中の楽曲の楽曲情報データが格納される。再生中の楽曲の更新があるときは、常に、記憶部１０に格納される楽曲情報データも更新される。

文字列処理テーブル１０ｃには、ユーザの質問に対する回答の定型文、及び、どのような質問に対してどのような基本定型文を適用するかという規則が格納されている。また、質問に対する回答の定型文に含まれる置換記号の部分を置換する楽曲情報データのテキストが音声再生不可能な場合に、その定型文を変換する規則等が格納されている。

ＴＴＳデータ１０ｄには、ＴＴＳエンジン６において音声合成を実行する際に使用する辞書（言語解析辞書、音声合成辞書）が含まれている。

言語解析辞書は、音声合成処理の対象となるテキスト情報の構文解析を行う際に参照する辞書であり、あらかじめ各語彙毎に、その表記、読み、アクセント情報、品詞情報等の詳細な情報を対応付けて登録したものである。音声合成辞書は、ＴＴＳエンジンで解析されたテキスト情報をその対応する音声（波形）データに変換する際に参照する辞書である。

このように構成された情報処理装置１００において、楽曲が再生出力されているときに、ユーザから楽曲に関する質問がされると、質問に対する適切な回答文をテキスト生成し、そのテキストを音声に変換してスピーカー９を通して回答する。

再生中の楽曲に関する情報は、音声認識／ＴＴＳ制御部１ｂが必要なときにそのつどオーディオ制御部１ａを介して取得するか、再生中の楽曲に関する情報が格納されている記憶部１０から取得する。

テキストを音声に変換する処理を行うＴＴＳエンジン１２では、入力されたテキストに忠実に音声に変換する。そのため、ＴＴＳエンジン１２に入力するテキストを最適なテキストに変換している。

例えば、回答文の定型文として、"This song is called <Song> by <Artist> from <Album>."を使用し、<Song>及び<Album>を置換する文字が音声再生可能な文字であり、<Artist>を置換する文字が音声再生不可能な文字であったとき、回答文を"This song is called <Song> from <Album>."と変換し、変換した定型文を用いてテキストを生成してＴＴＳエンジン１２に入力する。これにより、文法的に誤りのない自然な回答文を音声出力することが可能となる。

以下に、文法的に誤りのないテキストを生成する処理について説明する。本実施形態では、デジタルオーディオ機器１２に格納された楽曲が再生出力される情報処理装置１００を対象とする。また、情報処理装置１００とデジタルオーディオ機器１２とが接続され、デジタルオーディオ機器１２に格納されている楽曲データから楽曲情報のすべてが情報処理装置１００に送信され、情報処理装置１００の記憶部１０に楽曲データが格納されているものとする。

情報処理装置１００は、オーディオ制御部１ａの制御により、指示された楽曲に応じたファイルパス情報をデジタルオーディオ機器１２に送信し、デジタルオーディオ機器１２から楽曲データを受信しながらスピーカー９から音声を再生出力する。

この情報処理装置１００に対して、"What song is this？"という質問がされたものとする。ユーザの発話によるこの質問が、音声認識エンジン４において認識され、再生出力されている曲が何かという楽曲の情報をユーザが要求していると解釈すると、質問に対する回答文の基本定型文を予め用意され格納されている記憶部１０の文字列処理テーブル１０ｃから抽出する。この基本定型文の置換記号部分を楽曲情報のテキストに置換して回答文を生成する。この楽曲情報がＴＴＳエンジン６で音声信号を生成可能なテキストか否かを判定し、音声信号を生成することが不可能なテキストであればそのテキストをスペースに置き換える処理を行う。

ＴＴＳエンジン６は、入力されたテキストを音声に変換して読み上げるためのものであるが、ＴＴＳエンジン６が対応する言語に依存し、言語の文字コードを解釈できない場合は音声に変換することができない。

図２（ａ）は、文字コード一覧（ＩＳＯ８８５９−１）の一例を示した図である。ＴＴＳエンジン６によって、この文字コード一覧のうち、音声再生が可能な文字と音声再生ができない文字とが存在する。例えば、これらの文字コードのうち、二重枠で囲んだセル及び太枠で囲んだセルの文字がＴＴＳエンジン６によって音声信号に変換できないものとする。二重枠で囲んだセルの文字コードは音声再生ができないため、これらの文字はＴＴＳエンジンに入力する前にスペースに置換する。また、太枠で囲んだセルの文字コードはそのままでは音声再生できないが、読み方を定義して音声再生が可能なようにしている。図２（ｂ）にその定義の一例を示している。図２（ｂ）に示すように、ＴＴＳエンジン６が対応可能な文字コードが米国英語（US English）の場合、文字コード０ｘ２３の文字「＃」は“ｎｕｍｂｅｒ”に変換し、文字コード０ｘ２６の文字「＆」は“ａｎｄ”に変換し、文字コード０ｘ４０の文字「＠」は“ａｔ”に変換する。対応可能な文字コードがＣａｎａｄｉａｎＦｒｅｎｃｈ，ＡｍｅｒｉｃａｎＳｐａｎｉｓｈのときは、それぞれ図２（ｂ）に示すように変換される。

図３（ａ）は、楽曲に関する質問に対する回答の基本定型文の一例を示している。図３（ａ）に示すように、基本定型文として（１）"It is <Song> by <Artist>."、（２）"This song is called <Song> by <Artist> from <Album>."、（３）"This is called <Song> by <Artist> from <Album>."などが用意されている。これらの定型文において、<Song>は、曲名に置換される置換記号、<Artist>は、アーティスト名に置換される置換記号、<Album>は、アルバム名に置換される置換記号である。

これらの基本定型文から回答文の候補を抽出し、音声認識／ＴＴＳ制御部１ｂのメモリ（不図示）に一時的に保存する。

次に、楽曲のジャンルを検出し、楽曲のジャンルに応じた質問に対する回答の定型文を選択する。図３（ａ）に示す基本定型文のうち、楽曲のジャンルがポップ又はロックの場合には（２）の基本定型文が採用され、楽曲のジャンルがクラシック又はインストゥルメンタルの場合は（３）の基本定型文が採用されるものとする。このような基本定型文と楽曲のジャンルとの関係についても予め規定し記憶部１０の文字列処理テーブル１０ｃに格納しておく。

次に、再生出力されている楽曲に関する曲名やアーティスト名の楽曲情報を記憶部１０から取得して、それらの文字が音声再生可能な文字であるか否か、つまり、ＴＴＳエンジン６で採用している言語によって解釈が可能な文字であるか否かを判定する。

回答文の基本定型文に代入される楽曲情報の各項目の文字がすべて音声再生可能な文字であれば、基本定型文に含まれる置換記号の部分を楽曲情報に置換したテキストを読み上げ文字列生成部５にて生成する。これに対して、音声再生できない文字が含まれている場合には、再生できない楽曲情報に応じて基本定型文を一部変更してＴＴＳエンジン６に入力するテキストを生成する。例えば、ＴＴＳエンジン６でサポートしている文字コードが米国英語のときに日本語の漢字やひらがなは対応できずその文字については音声再生をすることができない。この場合、基本定型文の置換記号の部分をスペースに置換しただけでは、文法的に誤りを含んだ不自然な文になってしまう場合がある。そこで、音声再生できない楽曲情報に応じて定型文そのものを調整して、適切なテキストを生成するようにしている。

この変更の規則を定めた基本定型文変換規則の一例を図３（ｂ）に示す。基本定型文変換規則として、図３（ｂ）に示すように、音声再生不可能な楽曲情報の項目に応じて定型文をどのように変換するかが定義されている。

例えば、図３（ｂ）の規則Ｎｏ.(１)では、アーティスト名が音声再生不可能であると判定されたときは、基本定型文から、"by <Artist>"の部分を削除してＴＴＳエンジンに入力するテキストを生成するようにしている。同様に、規則Ｎｏ.(２)では、アルバム名が音声再生不可能と判定されたときに、基本定型文から、"from <Album>"の部分を削除するようにしている。また、規則Ｎｏ.(３)では、楽曲名が音声再生不可能と判定されたときに、新たな定型文を使用することが規定されている。

これらの基本定型文変換規則を適用して、楽曲情報（アーティスト名、アルバム名、楽曲名）のうちどの情報が音声再生不可能となった場合であっても、自然な応答文を生成するようにしている。以下に、楽曲情報のうちの少なくとも一つの情報が音声再生不可能な場合における定型文の変換例を示す。

（ａ）曲名だけが再生不可能な場合
読み上げ文字列生成部５における楽曲情報項目の音声再生可否解析の結果、曲名が音声再生不可能な文字コード、例えば、日本語の漢字やひらがな等で記載されていた場合である。この場合は、アーティスト名及びアルバム名を別々に回答する。例えば、"This Track's Artist is <Artist>. This Track's Album is <Album>."とする。このように、曲名が音声再生不可能な場合には新たな定型文を使用する。これらの新たな定型文も予め記憶部１０の文字列処理テーブル１０ｃに格納しておく。

（ｂ）アーティスト名だけが再生不可能な場合
読み上げ文字列生成部５における楽曲情報項目の音声再生可否解析の結果、アーティスト名が音声再生不可能な文字コード、例えば、日本語の漢字やひらがな等で記載されていた場合である。この場合は、定型文からアーティスト名に置換される置換記号部分とその前の前置詞とをあわせた修飾語に相当する部分を削除する。例えば、"This song is called <Song> from <Album>."とする。

（ｃ）アルバム名だけが再生不可能な場合
読み上げ文字列生成部５における楽曲情報項目の音声再生可否解析の結果、アルバム名が音声再生不可能な文字コード、例えば、日本語の漢字やひらがな等で記載されていた場合である。この場合は、定型文からアルバム名に置換される置換記号部分とその前の前置詞とを合わせた修飾語に相当する部分を削除する。例えば、"This song is called <Song> by <Artist>."とする。

（ｄ）アルバム名だけが再生可能な場合
読み上げ文字列生成部５における楽曲情報項目の音声再生可否解析の結果、アーティスト名と楽曲名が音声再生不可能な文字コードで記載されていた場合である。この場合は、アルバム名に置換される置換記号を文の要素とする新たな定型文を採用する。例えば、"This Track's Album is <Album>."とする。

（ｅ）アーティスト名だけが再生可能な場合
読み上げ文字列生成部５における楽曲情報項目の音声再生可否解析の結果、楽曲名とアルバム名が音声再生不可能な文字コードで記載されていた場合である。この場合は、アーティスト名に置換される置換記号を文の要素とする新たな定型文を採用する。例えば、"This track's artist is <Artist>."とする。

（ｆ）曲名だけが再生可能な場合
読み上げ文字列生成部５における楽曲情報項目の音声再生可否解析の結果、アーティスト名とアルバム名が音声再生不可能な文字コードで記載されていた場合である。この場合は、定型文からアーティスト名に置換される置換記号部分とその前の前置詞とをあわせた修飾語に相当する部分、及び定型文からアルバム名に置換される置換記号部分とその前の前置詞とを合わせた修飾語に相当する部分を削除する。例えば、"This song is called <Song>."とする。

上記各場合における定型文を一部削除する規則や、新たな定型文を使用することを示す規則は、予め記憶部１０の文字列処理テーブル１０ｃに格納しておく。

なお、曲名、アーティスト名、及びアルバム名のすべてが再生不可能な文字コードで記載されている場合には、音声による応答はできず、その旨の回答を行う。

また、楽曲のジャンルがクラシック又はインストゥルメンタルの場合には、例えば図３（ａ）の基本定型文（３）が選択され、この基本定型文を基に上記（ａ）〜（ｆ）の場合について適応させる。例えば、（ｂ）のアーティスト名だけが再生不可能の場合であれば、基本定型文を"This is called <Song> from <Album>."と変換する。

上記の規則を適用して適切な文を生成した例を、図４を用いて説明する。

図４（ａ）は、デジタルオーディオ機器１２から取得した４つの楽曲データの例を示している。それぞれの例において、曲名、アーティスト名、アルバム名、作曲者名、及びジャンルの楽曲情報が取得されている。

例１は、楽曲のジャンルがポップであり、定型文の置換記号が置換される楽曲情報の文字がすべて音声再生可能な場合である。この場合は、基本定型文の置換記号を楽曲情報に置換してテキストを生成する。生成されるテキストは、"This song is called Happy Song by Mariah Carey from All of you."となる。

例２は、楽曲のジャンルがポップであり、アーティスト名の文字だけが音声再生不可能な場合である。この場合は、基本定型文変換規則Ｎｏ.(１)を適用して基本定型文から"by <Artist>"を削除し、定型文を"This song is called <Song> from <Album>."と変換する。図４（ｂ）は、例２の場合の楽曲情報の各データがＴＴＳ入力用のデータに変換された例を示している。読み上げ文字列生成部５では、楽曲情報の文字について、音声再生が可能な文字か否かを判定している。ＴＴＳエンジンで対応していない文字コードの文字であると判定したときは、その文字を音声変換が不可能なことがわかるようにスペースに変換している。その結果、図４（ｂ）に示すように、アーティスト名についてデジタルオーディオ機器１２から抽出した抽出データに対してＴＴＳ入力用データとしてはスペースに変換されている。

読み上げ文字列生成部５では、ＴＴＳ入力用データを参照して、スペースとなっている楽曲情報があれば、それを音声再生不可能な文字と判定し、基本定型文変換規則を適用して定型文を変換する。例２の場合では、基本定型文が"This song is called <Song> by <Artist> from <Album>."であったが、アーティスト名が音声再生不可能であると判定されたため、定型文を"This song is called <Song> from <Album>."と変換する。

この定型文の置換記号部分を該当するテキストで置換して、ＴＴＳエンジンに入力するテキストは、"This song is called One Night Magic from ULTRA BLUE."となる。

例３は、楽曲のジャンルがロックであり、アーティスト名のみが音声再生可能な場合である。この場合は、基本定型文変換規則Ｎｏ.(２)及びＮｏ.(３)が適用されるが、新たな定型文を優先して適用するとともに、新たな定型文のうちのアルバムに関する文を使用しない。従って、新たな定型文の置換記号をアーティスト名に置換して、ＴＴＳエンジンに入力するテキストは、"This track's artist is T-BOLAN."となる。

例４は、楽曲のジャンルがクラシックであり、定型文の置換記号を置換する楽曲情報の文字がすべて音声再生可能な場合である。この場合は、基本定型文の置換記号を各楽曲情報に置換してテキストを生成する。生成されるテキストは、"This is called Piano Concerto #21 in C, K467 by Royal Philharmonic Orchestra from The Great Piano Concertos Vol.1."となる。

次に、楽曲に関する質問に対する自然な回答文のテキストを生成する処理について図５から図８を参照しながら説明する。図５は、情報処理装置１００が行うＴＴＳによるテキスト読み上げ処理のフローチャートであり、図６は、質問が楽曲の場合の回答処理のフローチャートであり、図７及び図８は、音声再生不可能な楽曲情報に応じた回答文テキスト生成処理の一例を示すフローチャートである。これらの処理において、デジタルオーディオ機器１２から取得した楽曲情報などのデータは記憶部１０に楽曲毎に格納されているものとする。また、質問に対する回答の定型文は予め定義され記憶部１０の文字列処理テーブル１０ｃに格納されているものとし、音声再生不可能な楽曲情報に応じた定型文変換規則も予め定義され記憶部１０の文字列処理テーブル１０ｃに格納されているものとする。

まず、図５のステップＳ１１において、ユーザからの音声による質問を受け付ける。音声入力部２がマイク３を介してユーザの音声を入力して音声信号等のデータに変換し、このデータを音声認識／ＴＴＳ制御部１ｂに出力する。

次のステップＳ１２において、ユーザからの質問を解析する。音声認識／ＴＴＳ制御部１ｂにおいて、入力した音声信号を音声認識エンジン４に引き渡し、音声認識エンジン４は音響モデル１０ａや音声認識辞書１０ｂを参照してユーザの質問を認識する。

次のステップＳ１３において、ユーザからの質問に対する回答の定型文を選択する。音声認識／ＴＴＳ制御部１ｂは、音声認識エンジン４によって認識したユーザの質問から何に関する質問かを判断し、質問に対する回答の定型文を予め格納してある記憶部１０から抽出する。また、定型文に含まれている置換記号の部分を置換する文字を、質問に関連したデータから抽出する。例えば、質問が楽曲に関する質問であり、回答文の置換記号が曲名に対応するものであれば、楽曲情報から曲名を抽出する。

次のステップＳ１４において、回答の定型文の置換記号部分を置換する文字が音声再生可能か否かを判定する。再生可能であればステップＳ１６に移行し、再生不可能であればステップＳ１５に移行する。音声再生可能か否かは、ＴＴＳエンジン６が対応可能な文字コードの文字か否かによって判断する。

次のステップＳ１５において、当該置換記号を含む修飾語句相当部分を削除した定型文に変換し、その定型文を用いて自然な文のテキストを生成する。

次のステップＳ１７において、ステップＳ１５又はステップＳ１６において生成されたテキストをＴＴＳエンジン６に入力する。

次のステップＳ１８において、音声認識／ＴＴＳ制御部１ｂの制御により、ＴＴＳエンジンに入力されたテキストを音声信号に変換させる。

次のステップＳ１９では、ＴＴＳエンジン６によって音声信号に変換された回答文のテキストを音声再生部７及びスピーカー９を介して音声出力する。

以上の処理によって、ユーザの質問に対して文法的に誤りのないテキストを音声出力している。

次に、ユーザからの問い合わせが楽曲に関する場合の音声による回答の処理について図６から図８を参照しながら説明する。図７及び図８は、図６の処理における音声再生が不可能な楽曲情報項目に応じて回答文のテキストを生成する処理の一例を示すフローチャートである。

まず、図６のステップＳ２１において、質問に対する回答の基本定型文の候補を選択する。本処理においては、楽曲に関する質問であるため、回答の基本定型文のうち、図３に示す基本回答定型文が候補として選択される。選択された基本回答定型文はメモリ（不図示）に一時的に記憶させておく。

次のステップＳ２２において、楽曲情報から楽曲のジャンル情報を取得する。楽曲情報はデジタルオーディオ機器１２などから取得して、記憶部１０に格納されている。記憶部１０に格納された楽曲データの属性の一つとして、楽曲が再生中か否かを示す再生中フラグを用意しておく。再生中フラグを参照して再生中の楽曲データを取得し、その楽曲データの楽曲情報のうちのジャンル情報を参照してジャンルを検出する。

次のステップＳ２３において、ステップＳ２２で取得した楽曲のジャンルに応じた基本定型文を選択する。例えば、楽曲のジャンルがポップやロックの場合は、図３の基本回答定型文（２）を選択し、ジャンルがクラシックやインストゥルメンタルの場合は、基本回答定型文（３）を選択する。選択された基本回答定型文をメモリに残し、選択されなかった基本回答定型文は破棄される。

次のステップＳ２４において、楽曲情報の文字が音声再生可能か否かを判定する。これらの文字は基本定型文の置換記号の部分を置換するものであり、文字が音声再生できない場合、例えば、ＴＴＳエンジン６が対象とする文字コードが米国英語のときに漢字などの日本語の場合、その文字をスペースに置き換える。楽曲情報の文字は記憶部１０から抽出し、メモリに一時的に保存しておく。

次のステップＳ２５において、楽曲情報に記載されている文字がすべて音声再生可能であるか否かを判定する。すべての文字が音声再生可能と判定されれば、ステップＳ２７に移行し、音声再生不可能な文字が存在すると判定されれば、ステップＳ２６に移行する。楽曲情報の文字のうち音声再生不可能な文字が存在するか否かは、ステップＳ２４において作成したＴＴＳ入力用データを参照して判断する。例えば、図４（ｂ）に示すような楽曲データでは、アーティスト名の情報が漢字で記載されているため、この文字をスペースに変換している。このように、ＴＴＳ入力用データにスペースが含まれている場合、音声再生不可能な文字が存在すると判定する。

ステップＳ２６では、音声再生不可能な楽曲情報項目に応じて回答文のテキストを生成して、本処理を終了する。一方、ステップＳ２７では、ステップＳ２５において楽曲情報がすべて音声再生可能と判定されたため、定型文の各置換記号を楽曲情報に置換して、回答文のテキストを生成して、本処理は終了する。

図７及び図８は、図６のステップＳ２６の処理の詳細を示したフローチャートである。この処理は、楽曲情報のうち定型文に含まれる置換記号を置換する３種類の文字（楽曲名、アーティスト名、アルバム名）が音声再生可能か否かを場合分けして、それぞれの場合においてどのようなテキストを生成するかを示した処理である。

楽曲名が音声再生不可能（ステップＳ３１においてＹＥＳ）であり、アーティスト名が音声再生可能（ステップＳ３２においてＮＯ）であり、アルバム名が音声再生可能（ステップＳ３３においてＮＯ）であれば、ステップＳ３５において新たな回答定型文を抽出し、ステップＳ３６において回答定型文の置換記号をアーティスト名及びアルバム名に置換してテキストを生成する。

楽曲名が音声再生不可能（ステップＳ３１においてＹＥＳ）であり、アーティスト名が音声再生可能（ステップＳ３２においてＮＯ）であり、アルバム名が音声再生不可能（ステップＳ３３においてＹＥＳ）であれば、ステップＳ３７において新たな回答定型文を抽出し、ステップＳ３８において回答定型文の置換記号をアーティスト名に置換してテキストを生成する。

楽曲名が音声再生不可能（ステップＳ３１においてＹＥＳ）であり、アーティスト名が音声再生不可能（ステップＳ３２においてＹＥＳ）であり、アルバム名が音声再生可能（ステップＳ３４においてＮＯ）であれば、ステップＳ３９において新たな回答定型文を抽出し、ステップＳ４０において回答定型文の置換記号をアルバム名に置換してテキストを生成する。

楽曲名が音声再生不可能（ステップＳ３１においてＹＥＳ）であり、アーティスト名が音声再生不可能（ステップＳ３２においてＹＥＳ）であり、アルバム名が音声再生不可能（ステップＳ３４においてＹＥＳ）であれば、ステップＳ４１に移行し、回答不可能である旨の出力テキストを生成する。

楽曲名が音声再生可能（ステップＳ３１においてＮＯ）であり、アーティスト名が音声再生不可能（ステップＳ４２においてＹＥＳ）であり、アルバム名が音声再生可能（ステップＳ４３においてＮＯ）であれば、ステップＳ４５において定型文のうちの一部を削除する。削除する部分は、アーティスト名に置換される置換記号を含む修飾語句相当部分である。ステップＳ４６において、一部削除した定型文の各置換記号を楽曲名及びアルバム名に置換してテキストを生成する。

楽曲名が音声再生可能（ステップＳ３１においてＮＯ）であり、アーティスト名が音声再生不可能（ステップＳ４２においてＹＥＳ）であり、アルバム名が音声再生不可能（ステップＳ４３においてＹＥＳ）であれば、ステップＳ４７において定型文の一部を削除する。削除する部分は、アーティスト名に置換される置換記号を含む修飾語句相当部分、及びアルバム名に置換される置換記号を含む修飾語句相当部分である。ステップＳ４８において、一部削除した定型文の置換記号を楽曲名に置換してテキストを生成する。

楽曲名が音声再生可能（ステップＳ３１においてＮＯ）であり、アーティスト名が音声再生可能（ステップＳ４２においてＮＯ）であり、アルバム名が音声再生不可能（ステップＳ４４においてＹＥＳ）であれば、ステップＳ４９において定型文の一部を削除する。削除する部分は、アルバム名に置換される置換記号を含む修飾語句相当部分である。ステップＳ５０において、一部削除した定型文の各置換記号を楽曲名及びアーティスト名に置換してテキストを生成する。

楽曲名が音声再生可能（ステップＳ３１においてＮＯ）であり、アーティスト名が音声再生可能（ステップＳ４２においてＮＯ）であり、アルバム名が音声再生可能（ステップＳ４４においてＮＯ）であれば、ステップＳ５１において、定型文の各置換記号を楽曲名、アーティスト名、及びアルバム名に置換してテキストを生成する。

図７及び図８を用いて詳細に説明した図６のステップＳ２６におけるテキストが生成されると、ＴＴＳエンジン６に入力されて、質問に対する適切な回答が音声応答される。

以上説明したように、本実施形態の情報処理装置及びテキスト読み上げ方法では、ユーザからの問い合わせに対し、置換記号を含む回答の定型文が用意されている。置換記号の部分は、楽曲情報のいずれかの文字に置換される。この楽曲情報の文字が音声再生不可能な文字の場合、定型文からその楽曲情報に置換される置換記号を含む修飾語句に相当する部分を削除して定型文を変換し、変換した定型文を用いてＴＴＳに入力するテキストを生成している。これにより、音声再生が不可能な文字を含むために一部情報が欠けている場合であっても、文法的に誤りがなく自然な回答文を音声出力することが可能になる。

なお、本実施形態では、ＴＴＳエンジンがサポートする言語を米国英語として説明したが、これに限定されないことは勿論である。言語に応じて音声出力が不可能な文字をスペースにしたときに文法的に誤りのないような定型文の変換規則を定義することにより、あらゆる言語に適用可能である。

また、図３では楽曲情報の質問に対する３つの回答定型文を示し、定型文に代入される楽曲情報が曲名、アーティスト名、アルバム名の場合について説明したが、これに限らず、作曲者等その他の楽曲情報を対象とするようにしてもよい。

また、楽曲情報について曲名等の文字全体が再生可能か再生不可能な場合を例にとって説明したが、文字の一部に音声再生可能な文字が含まれる場合もある。この場合に、再生可能な部分だけをテキストとして残すようにしてもよいし、その文字全体を音声再生不可能とみなすようにしてもよい。文字全体を音声再生不可能とする場合には、不正確な情報を出力することがなくなる。

１００…情報処理装置、
１…制御部、
１ａ…オーディオ制御部、
１ｂ…音声認識／ＴＴＳ制御部、
２…音声入力部（入力手段）、
３…マイク（入力手段）、
４…音声認識エンジン、
５…読み上げ文字列生成部、
６…ＴＴＳエンジン（音声読み上げ手段）、
７…音声再生部、
８…表示部（表示手段）、
９…スピーカー、
１０…記憶部（記憶手段）、
１０ａ…音響モデル、
１０ｂ…音声認識辞書、
１０ｃ…文字列処理テーブル、
１０ｄ…ＴＴＳデータ。

Claims

再生用の楽曲データを格納した機器と通信可能に接続される情報処理装置であって、
テキストを音声データに変換して出力する機能を有した音声読み上げ手段と、
ユーザの質問に対する回答の定型文及び定型文の変換規則が格納された記憶手段と、
ユーザからの質問を入力する入力手段と、
前記楽曲データを格納した機器から楽曲データ及び当該楽曲データに付随した楽曲情報を取得する制御手段とを有し、
前記制御手段は、ユーザからの楽曲に対する質問を解析して当該質問に応じた回答文の定型文を選択し、当該楽曲の楽曲情報から定型文に含まれる置換記号部分を置換する文字を検出して当該文字が音声再生可能か否かに応じて前記定型文を変換し、当該変換した定型文を用いて音声読み上げ用のテキストを生成し、当該テキストを前記音声読み上げ手段を介して読み上げさせることを特徴とする情報処理装置。
前記制御手段は、前記楽曲のジャンルに応じて、前記定型文を選択することを特徴とする請求項１に記載の情報処理装置。
前記制御手段は、前記楽曲情報のいずれかが音声再生不可能であると判定したとき、前記定型文から当該楽曲情報に置換される置換記号を含む修飾語句相当部分を削除した定型文を用いてテキストを生成するか、又は新たな定型文を用いてテキストを生成することを特徴とする請求項２に記載の情報処理装置。
前記制御手段は、前記楽曲情報のうち、アーティスト名が音声再生不可能であると判定したとき、前記定型文から当該アーティスト名に置換される置換記号を含む修飾語句相当部分を削除した定型文を用いてテキストを生成することを特徴とする請求項３に記載の情報処理装置。
前記制御手段は、前記楽曲情報のうち、アルバム名が音声再生不可能であると判定したとき、前記定型文から当該アルバム名に置換される置換記号を含む修飾語句相当部分を削除した定型文を用いてテキストを生成することを特徴とする請求項３に記載の情報処理装置。
前記制御手段は、前記楽曲情報のうち、楽曲名が音声再生不可能であると判定したとき、当該楽曲のアーティスト名に置換される置換記号を文の要素とする新たな定型文及び当該楽曲のアルバム名に置換される置換記号を文の要素とする新たな定型文を前記記憶手段から抽出し、当該定型文を用いてテキストを生成することを特徴とする請求項３に記載の情報処理装置。
前記制御手段は、前記楽曲情報のうち、アーティスト名だけが音声再生可能であると判定したとき、当該アーティスト名に置換される置換記号を文の要素とする新たな定型文を前記記憶手段から抽出して、当該定型文を用いてテキストを生成することを特徴とする請求項３に記載の情報処理装置。
前記制御手段は、前記楽曲情報のうち、アルバム名だけが音声再生可能であると判定したとき、当該アルバム名に置換される置換記号を文の要素とする新たな定型文を前記記憶手段から抽出して、当該定型文を用いてテキストを生成することを特徴とする請求項３に記載の情報処理装置。
前記制御手段は、前記楽曲情報のうち、楽曲名だけが音声再生可能であると判定したとき、当該楽曲のアーティスト名に置換される置換記号を含む修飾語句相当部分及び当該楽曲のアルバム名に置換される置換記号を含む修飾語句相当部分を前記定型文から削除した定型文を用いてテキストを生成することを特徴とする請求項３に記載の情報処理装置。
前記修飾語句相当部分は、所定の楽曲情報に置換される置換記号と前置詞で構成される前置詞句相当部分であることを特徴とする請求項４，５，９のいずれか一項に記載の情報処理装置。
ユーザからの楽曲に対する質問を解析するステップと、
記憶手段に格納されている回答文の定型文から、前記質問に応じた定型文を抽出するステップと、
前記楽曲の楽曲情報から前記定型文に含まれる置換記号部分を置換する文字を検出するステップと、
当該文字が音声再生可能か否かに応じて前記定型文を変換するステップと、
前記変換された定型文の置換記号を当該文字に置換して音声読み上げ用のテキストを生成するステップと、
前記テキストを音声データに変換して出力するステップと、
を有することを特徴とするテキスト読み上げ方法。
前記定型文を抽出するステップは、
前記記憶手段に格納されている回答文の定型文から、前記質問に応じた回答文の定型文の候補を選択するステップと、
前記楽曲情報を解析して当該楽曲のジャンルを検出するステップと、
前記定型文の候補の中から当該ジャンルに応じた定型文を選択するステップと、
を含むことを特徴とする請求項１１に記載のテキスト読み上げ方法。
前記定型文を変換するステップは、
前記楽曲情報のいずれかが音声再生不可能か否かを判定するステップと、
前記楽曲情報のいずれかが音声再生不可能であると判定したとき、前記定型文を新たな定型文に変換するステップと、
を含むことを特徴とする請求項１２に記載のテキスト読み上げ方法。
前記定型文を新たな定型文に変換するステップにおいて、
前記楽曲情報のうちのアーティスト名が音声再生不可能であると判定したとき、前記定型文から当該アーティスト名に置換される置換記号を含む修飾語句相当部分を削除した定型文に変換することを特徴とする請求項１３に記載のテキスト読み上げ方法。
前記定型文を新たな定型文に変換するステップにおいて、
前記楽曲情報のうちのアルバム名が音声再生不可能であると判定したとき、前記定型文から当該アルバム名に置換される置換記号を含む修飾語句相当部分を削除した定型文に変換することを特徴とする請求項１３に記載のテキスト読み上げ方法。
前記定型文を新たな定型文に変換するステップにおいて、
前記楽曲情報のうち楽曲名が音声再生不可能であると判定したとき、当該楽曲のアーティスト名に置換される置換記号を文の要素とする新たな定型文及び当該楽曲のアルバム名に置換される置換記号を文の要素とする新たな定型文を前記記憶手段から抽出することを特徴とする請求項１３に記載のテキスト読み上げ方法。
前記定型文を新たな定型文に変換するステップにおいて、
前記楽曲情報のうちのアーティスト名だけが音声再生可能であると判定したとき、当該アーティスト名に置換される置換記号を文の要素とする新たな定型文を前記記憶手段から抽出することを特徴とする請求項１３に記載のテキスト読み上げ方法。
前記定型文を新たな定型文に変換するステップにおいて、
前記楽曲情報のうちのアルバム名だけが音声再生可能であると判定したとき、当該アルバム名に置換される置換記号項目を文の要素とする新たな定型文を前記記憶手段から抽出することを特徴とする請求項１３に記載のテキスト読み上げ方法。
前記定型文を新たな定型文に修正するステップにおいて、
前記楽曲情報のうちの楽曲名だけが音声再生可能であると判定したとき、当該楽曲のアーティスト名に置換される置換記号を含む修飾語句相当部分及び当該楽曲のアルバム名に置換される置換記号を含む修飾語句相当部分を前記定型文から削除した定型文に変換することを特徴とする請求項１３に記載のテキスト読み上げ方法。
前記修飾語句相当部分は、所定の楽曲情報に置換される置換記号と前置詞で構成される前置詞句相当部分であることを特徴とする請求項１４，１５，１９のいずれか一項に記載のテキスト読み上げ方法。