JP6648805B2 - 音声制御方法、音声制御装置およびプログラム - Google Patents
音声制御方法、音声制御装置およびプログラム Download PDFInfo
- Publication number
- JP6648805B2 JP6648805B2 JP2018206267A JP2018206267A JP6648805B2 JP 6648805 B2 JP6648805 B2 JP 6648805B2 JP 2018206267 A JP2018206267 A JP 2018206267A JP 2018206267 A JP2018206267 A JP 2018206267A JP 6648805 B2 JP6648805 B2 JP 6648805B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- answer
- unit
- reaction
- target word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
本発明は、音声制御方法、音声制御装置およびプログラムに関する。
近年、音声合成技術として、次のようなものが提案されている。すなわち、利用者の話調や声質に対応した音声を合成出力することによって、より人間らしく発音する技術(例えば特許文献1参照)や、利用者の音声を分析して、当該利用者の心理状態や健康状態などを診断する技術(例えば特許文献2参照)が提案されている。また、利用者が入力した音声を認識する一方で、シナリオで指定された内容を音声合成で出力して、利用者との音声対話を実現する音声対話システムも提案されている(例えば特許文献3参照)。
ところで、上述した音声合成技術と音声対話システムとを組み合わせて、利用者の音声に対し、データを検索等して音声合成により出力する音声合成装置を想定する。このように想定した音声合成装置では、音声合成によって出力される音声が利用者に不自然な感じ、具体的には、いかにも機械が喋っている感じを与えるときがある、という問題が指摘されている。
本発明は、このような事情に鑑みてなされたものであり、その目的の一つは、利用者に自然な感じを与えることが可能な音声制御方法、音声制御装置およびプログラムを提供することにある。
本発明は、このような事情に鑑みてなされたものであり、その目的の一つは、利用者に自然な感じを与えることが可能な音声制御方法、音声制御装置およびプログラムを提供することにある。
上記目的を達成するために、本発明の一態様に係る音声合成装置は、音声を入力する音声入力部と、前記音声入力部により入力された音声に対する一次回答を取得する取得部と、前記一次回答に、反復の対象が含まれるか否かを解析する解析部と、前記一次回答に反復の対象があると解析された場合に、当該対象を2回以上反復した二次回答を音声合成して出力する音声合成部と、を具備することを特徴とする。上記一態様に係る音声合成装置によれば、一次回答に反復の対象があれば、当該対象が反復されて音声合成で出力されるので、あたかも人と対話しているかのような自然な印象を与えることができる。
上記一態様に係る音声合成装置において、前記反復の対象は、音節数が2以下の感動詞であり、前記解析部は、前記一次回答に感動詞が含まれているか否かを判別し、感動詞が含まれていると判別した場合に、当該感動詞の音節数が2以下であるか否かを解析しても良い。
上記一態様に係る音声合成装置において、前記取得部は、前記音声入力部により入力された音声の意味を解析する言語解析部と、前記言語解析部により解析された意味に対応する一次回答を作成する一次回答作成部と、を含む構成としても良い。この構成によれば、入力された音声に対して適切な内容の回答が音声合成で出力される。
上記一態様に係る音声合成装置において、前記一次回答に反復の対象があると解析された場合に、当該対象を2回以上反復して出力する反復部を備える構成としても良い。この構成によれば、念押したり、共感を得ようとしたりするなど、実際に人と対話しているかのような印象を与えることができる。
上記反復部を備える場合、前記音声合成部は、前記一次回答に含まれる感動詞の音節数が2以下であれば、前記反復部により感動詞が反復された二次回答を音声合成し、前記一次回答に含まれる感動詞の音節数が3以上であれば、当該一次回答を二次回答として音声合成しても良い。一次回答に含まれる感動詞の音節数が2以下であれば、当該感動詞が反復されて二次回答として音声合成される一方、3以上であれば、一次回答がそのまま二次回答として音声合成される。
前記音声合成部は、前記回答から音声シーケンスを作成する音声シーケンス作成部と、前記音声シーケンスに基づいて音声合成した音声信号を出力する合成部と、を含んでも良い。
上記反復部を備える場合、前記音声合成部は、前記一次回答に含まれる感動詞の音節数が2以下であれば、前記反復部により感動詞が反復された二次回答を音声合成し、前記一次回答に含まれる感動詞の音節数が3以上であれば、当該一次回答を二次回答として音声合成しても良い。一次回答に含まれる感動詞の音節数が2以下であれば、当該感動詞が反復されて二次回答として音声合成される一方、3以上であれば、一次回答がそのまま二次回答として音声合成される。
前記音声合成部は、前記回答から音声シーケンスを作成する音声シーケンス作成部と、前記音声シーケンスに基づいて音声合成した音声信号を出力する合成部と、を含んでも良い。
上記一態様に係る音声合成装置において、第1モードおよび第2モードを有し、前記一次回答作成部は、前記第1モードであれば、感動詞に具体的内容を加えた一次回答を作成し、前記第2モードであれば、感動詞のみの一次回答、または、具体的内容のみの一次回答を、作成する構成としても良い。第1モードであれば、感動詞に具体的内容を加えた二次回答が作成される一方で、当該感動詞の音節数が「2」以下であれば、当該感動詞が反復されるので、利用者への共感をさらに高めることができる。
上記一態様に係る音声合成装置において、禁止モードを有し、前記禁止モードであれば、前記音声合成部は、前記音節数が2以下の感動詞を反復しないで音声合成しても良い。感動詞の単なる反復は、状況によっては利用者に不快感を与えてしまう場合もあるが、この禁止モードによって、そのような不快感を与えてしまうことを防止することができる。この構成において、前記反復部は、前記禁止モードであれば、前記音節数が2以下の感動詞の反復機能をキャンセルする構成としても良い。
なお、本発明においては、音声合成装置のみならず、音声合成方法や、コンピュータを当該音声合成として機能させるためのプログラム、当該プログラムを記録したコンピュータ読み取り可能な記録媒体などでも概念することが可能である。
なお、本発明においては、音声合成装置のみならず、音声合成方法や、コンピュータを当該音声合成として機能させるためのプログラム、当該プログラムを記録したコンピュータ読み取り可能な記録媒体などでも概念することが可能である。
まず、実施形態に係る音声合成装置の概要について説明する。
人同士の対話において、一方の人(aとする)による問い(問い掛け)に対し、他方の人(bとする)が回答する場合について検討する。この場合において、人bは、人aが発した問い掛けに対し、当該問い掛けに対する回答をそのまま発するのではなく、当該回答の一部または全部を反復するケースが見受けられる。例えば、人aによる問い掛けに対して、人bが日本語で肯定的な意味である「はい」(音をローマ字で、音節で区切って表記した場合に[ha−i]、以下において( )内の[ ]は、音節で区切って表記したもの、図において同じ)と回答しようとする場合、そのまま「はい」([ha−i])と回答するのではなく、「はいはい」([ha−i−ha−i])などのように反復するケースがある。
一方で、人aによる問い掛けに対して、人bが回答する場合、上記のように反復されないケースもある。例えば、人aによる問い掛けに対して、人bが日本語で否定的な意味である「いいえ」([i−i−e])と回答しようとする場合に、「いいえいいえ」([i−i−e−i−i−e])のように反復されることは少ない。
人同士の対話において、一方の人(aとする)による問い(問い掛け)に対し、他方の人(bとする)が回答する場合について検討する。この場合において、人bは、人aが発した問い掛けに対し、当該問い掛けに対する回答をそのまま発するのではなく、当該回答の一部または全部を反復するケースが見受けられる。例えば、人aによる問い掛けに対して、人bが日本語で肯定的な意味である「はい」(音をローマ字で、音節で区切って表記した場合に[ha−i]、以下において( )内の[ ]は、音節で区切って表記したもの、図において同じ)と回答しようとする場合、そのまま「はい」([ha−i])と回答するのではなく、「はいはい」([ha−i−ha−i])などのように反復するケースがある。
一方で、人aによる問い掛けに対して、人bが回答する場合、上記のように反復されないケースもある。例えば、人aによる問い掛けに対して、人bが日本語で否定的な意味である「いいえ」([i−i−e])と回答しようとする場合に、「いいえいいえ」([i−i−e−i−i−e])のように反復されることは少ない。
回答の意味内容が同じでも、言語が異なれば、反復が真逆の関係になることもある。例えば、人bが英語で肯定的な意味である「Yes」と回答する場合、「Yes、yes」と反復されることは少ない。一方で、人bが英語で否定的な意味である「No」と回答する場合、「No、no」と反復されるケースが見受けられる。
また例えば、人aが日本語で「明日は、晴れ?」(英語で「Will it be sunny tomorrow? 」)という問い掛けに対して、人bが日本語で「はい、はれです」([ha−i ha−re−de−su])という意味内容で回答しようとする場合、「はいはい、はれです」([ha−i−ha−i ha−re−de−su])などのように「はい」を反復して回答するケースもある。ただし、人bが同じ意味内容を英語で「Yes、it will be sunny tomorrow.」)と回答しようとする場合、「Yes、yes、it will be sunny tomorrow.」)のように「Yes」を反復して回答するケースは少ない。
ここで、本件発明者は、回答の一部または全部が反復されるか、反復されないか、の境として、当該回答に含まれる感動詞の音節数(音節の数)が「2」以下であるか、否かであるか、と考えた。
上記の例でいえば、感動詞であり、かつ、音節数が「2」以下である日本語の「はい」(「ha−i」)や英語の「No」については反復される。しかし、感動詞であるが、音節数が「3」以上である日本語の「いいえ」([i−i−e])や、英語の「Yes」については反復されることは少ないからである。
このように、肯定的であるか否定的であるかのような意味内容は関係なく、また、言語にも関係なく、まず、感動詞の音節数に着目すべきと考えられる。
上記の例でいえば、感動詞であり、かつ、音節数が「2」以下である日本語の「はい」(「ha−i」)や英語の「No」については反復される。しかし、感動詞であるが、音節数が「3」以上である日本語の「いいえ」([i−i−e])や、英語の「Yes」については反復されることは少ないからである。
このように、肯定的であるか否定的であるかのような意味内容は関係なく、また、言語にも関係なく、まず、感動詞の音節数に着目すべきと考えられる。
音節数が「2」以下である感動詞が反復される理由は、単純であるために無意識のうち念押しする、共感を得ようとする、相手の発言に共鳴している/寄り添いたいと思っていることを伝えようとする、相手に冷たい印象を与えないようにする、などが考えられる。
なお、感動詞とは、感動や、応答、呼び掛けなどを表し、活用がなく、単独で文になり得る語である。上記以外の例としては、日本語では、相槌の「ふむ」([fu−mu])や、「そう」([so−u])などが挙げられ、英語では、「Ah」、「Oh」などが挙げられ、中国語では「是」([shi])、「明白」([ming−ba−i])などが挙げられるほか、後述するように動物の鳴き声が含まれる。
また、音節とは、発声したときの音を区切る分節であり、典型的には次の1.〜4.のように1つの母音に対し、その母音単独で構成、または、当該母音の前後に1乃至複数の子音を伴って構成される音声(群)であって、音声を聞いたときのまとまりを言う。
1.母音(V)
2.子音+母音(CV)
3.母音+子音(VC)
4.子音+母音+子音(CVC)
日本語の音節には、上記1.および2.に該当する音節が存在するが、上記3.および4.に該当する音節は存在しない。
なお、上記1.〜4.については、音節を分類する上での例であり、言語によっては、音声を聞いたときのまとまりが、母音を中心とするのではなく、子音が中心となる場合がある。また、中国語などの声調言語(トーン言語)では、母音と子音の組合せに、さらに母音の音程の高低変化による声調を加えて音節を構成する場合もある。
1.母音(V)
2.子音+母音(CV)
3.母音+子音(VC)
4.子音+母音+子音(CVC)
日本語の音節には、上記1.および2.に該当する音節が存在するが、上記3.および4.に該当する音節は存在しない。
なお、上記1.〜4.については、音節を分類する上での例であり、言語によっては、音声を聞いたときのまとまりが、母音を中心とするのではなく、子音が中心となる場合がある。また、中国語などの声調言語(トーン言語)では、母音と子音の組合せに、さらに母音の音程の高低変化による声調を加えて音節を構成する場合もある。
このように、実際の人同士の対話においては、人aによる問い掛けに対し、人bが2音節以下の感動詞を反復して回答するケースが見受けられる。本発明の実施形態に係る音声合成装置は、概略すれば、あたかも人と対話しているかのような感じを与えるために、問い掛けに対して、返事をしようとする回答のなかに含まれる感動詞の音節数が「2」以下であれば、当該感動詞を2回以上反復させて音声合成して出力する構成としている。
なお、音節数が「2」以下である感動詞が反復される理由は、上述したように単純であるために無意識のうち念押しする等であるので、音節数が「2」以下の単純な語であれば、感動詞でなくても、反復されやすい傾向がある。また、音節数が「3」以上の感動詞であっても、確認などで無意識に反復される場合もあり得る。この傾向を考慮した内容については後述することにする。
以下、実施形態に係る音声合成装置の詳細について図面を参照して説明する。
なお、音節数が「2」以下である感動詞が反復される理由は、上述したように単純であるために無意識のうち念押しする等であるので、音節数が「2」以下の単純な語であれば、感動詞でなくても、反復されやすい傾向がある。また、音節数が「3」以上の感動詞であっても、確認などで無意識に反復される場合もあり得る。この傾向を考慮した内容については後述することにする。
以下、実施形態に係る音声合成装置の詳細について図面を参照して説明する。
<第1実施形態>
図1は、第1実施形態に係る音声合成装置10のハードウェアの構成を示す図である。
この音声合成装置10は、例えば携帯電話機のような端末装置であり、図に示されるように、CPU(Central Processing Unit)11と、メモリ12と、表示部13と、タッチパネル14と、音声入力部102と、通信部126と、音声出力部142と、を含む。
図1は、第1実施形態に係る音声合成装置10のハードウェアの構成を示す図である。
この音声合成装置10は、例えば携帯電話機のような端末装置であり、図に示されるように、CPU(Central Processing Unit)11と、メモリ12と、表示部13と、タッチパネル14と、音声入力部102と、通信部126と、音声出力部142と、を含む。
CPU11は、音声合成装置10の全体を制御し、メモリ12は、CPU11の主記憶部として用いられ、音声合成のアプリケーションプログラムや各種のデータなどを記憶する。表示部13は、例えば液晶表示装置などであり、設定や操作などの各種画面を表示する。タッチパネル14は、表示部13による表示画面のタッチ位置を検出し、検出したタッチ位置を示す情報を出力する。
音声入力部102は、詳細については省略するが、音声を電気信号に変換するマイクロフォンや、変換された音声信号の高域成分をカットするLPF(ローパスフィルタ)、高域成分をカットした音声信号をデジタル信号に変換するA/D変換器などで構成される。通信部126は、インターネットなどを介して外部サーバと通信する。音声出力部142は、合成された音声信号をアナログ信号に変換するD/A変換器や、アナログ信号に変換された音声信号を増幅する増幅器、増幅された信号を音響変換して出力するスピーカなどで構成される。
音声合成装置10では、上記アプリケーションプログラムを実行することによって、利用者による問い掛けに対して回答を音声合成して出力する機能を実現する構成となっている。すなわち、音声合成装置10は、CPU等の演算処理装置とアプリケーションプログラムとの協働によって実現される。
なお、このアプリケーションプログラムは、例えば特定のサイトからインターネット経由でダウンロードされて、端末装置にインストールされても良いし、メモリーカードのような読取可能な記録媒体に格納された形態で提供されてインストールされても良い。
なお、このアプリケーションプログラムは、例えば特定のサイトからインターネット経由でダウンロードされて、端末装置にインストールされても良いし、メモリーカードのような読取可能な記録媒体に格納された形態で提供されてインストールされても良い。
音声合成装置10では、CPU11が、上記アプリケーションプログラムを実行することによって、次のような機能ブロックが構築される。
図2は、音声合成装置10の構成を示すブロック図である。
この図に示されるように、音声合成装置10では、取得部22、音声合成部24、解析部112、反復部114、言語データベース122、回答データベース124および音声ライブラリ128が構築される。このうち、取得部22は、言語解析部108と、一次回答作成部110とを含み、音声合成部24は、音声シーケンス作成部116と合成部118とを含む。なお、音声入力部102、通信部126および音声出力部142については上述した通りである。
この図に示されるように、音声合成装置10では、取得部22、音声合成部24、解析部112、反復部114、言語データベース122、回答データベース124および音声ライブラリ128が構築される。このうち、取得部22は、言語解析部108と、一次回答作成部110とを含み、音声合成部24は、音声シーケンス作成部116と合成部118とを含む。なお、音声入力部102、通信部126および音声出力部142については上述した通りである。
言語解析部108は、音声入力部102に入力された音声の意味内容を、音声信号の処理により解析(特定)する。詳細には、言語解析部108は、音声信号がどの音素に近いのかを、言語データベース122に予め作成された音素モデルを参照することにより判定して、言葉の意味内容を解析する。なお、このような音素モデルには、例えば隠れマルコフモデルを用いることができる。
一次回答作成部110は、言語解析部108によって解析された音声の意味内容に対応するテキストの一次回答を、回答データベース124および通信部126を参照して作成する。
例えば「今、何時?」という問い掛けに対しては、内蔵のリアルタイムクロック(図示省略)から時刻情報を取得するとともに、時刻情報以外の情報(例えば定型文)を回答データベース124から取得することで、「ただいま○○時○○分です」という一次回答を作成する。
一方で、「あすのてんきは?」という問い掛けに対しては、外部サーバにアクセスして天気情報を取得しないと、音声合成装置10の単体では一次回答を作成することができない。このように、回答データベース124のみでは一次回答が作成できない場合、通信部126が、インターネットを介し外部サーバにアクセスして、一次回答に必要な情報を取得する構成となっている。このように、一次回答作成部110は、問い掛けに対する一次回答を、回答データベース124または外部サーバから取得する構成となっている。
なお、必要な情報を取得したとき、一次回答作成部110は、問い掛けに対して「○○です」という一次回答を、上記定型文を用いて作成する。また、一次回答作成部110は、問い掛けに対する回答として具体的内容でなく、例えば「はい」や「いいえ」のような単純な肯定/否定の返事や、「そう」、「いいね」のような相槌などの感動詞を一次回答として作成する場合もある。
なお、ここでいう一次回答とは、一次回答作成部110で作成されたものであって、感動詞を反復する前段階のものをいう。最終的に音声合成の対象とされる二次回答と区別するための措置である。
例えば「今、何時?」という問い掛けに対しては、内蔵のリアルタイムクロック(図示省略)から時刻情報を取得するとともに、時刻情報以外の情報(例えば定型文)を回答データベース124から取得することで、「ただいま○○時○○分です」という一次回答を作成する。
一方で、「あすのてんきは?」という問い掛けに対しては、外部サーバにアクセスして天気情報を取得しないと、音声合成装置10の単体では一次回答を作成することができない。このように、回答データベース124のみでは一次回答が作成できない場合、通信部126が、インターネットを介し外部サーバにアクセスして、一次回答に必要な情報を取得する構成となっている。このように、一次回答作成部110は、問い掛けに対する一次回答を、回答データベース124または外部サーバから取得する構成となっている。
なお、必要な情報を取得したとき、一次回答作成部110は、問い掛けに対して「○○です」という一次回答を、上記定型文を用いて作成する。また、一次回答作成部110は、問い掛けに対する回答として具体的内容でなく、例えば「はい」や「いいえ」のような単純な肯定/否定の返事や、「そう」、「いいね」のような相槌などの感動詞を一次回答として作成する場合もある。
なお、ここでいう一次回答とは、一次回答作成部110で作成されたものであって、感動詞を反復する前段階のものをいう。最終的に音声合成の対象とされる二次回答と区別するための措置である。
解析部112は、第1に、一次回答作成部110によって作成された一次回答に感動詞が含まれているか否かを判別するとともに、含まれていれば、第2に、当該感動詞の音節数を解析する。
解析部112は、一次回答に感動詞が含まれ、かつ、当該感動詞の音節数が「2」以下であると解析すれば、当該一次回答を反復部114に供給する。なお、解析部112は、一次回答に感動詞が含まれていないと判別した場合、または、含まれていても当該感動詞の音節数が「3」以上であると解析した場合、当該一次回答をそのまま二次回答として音声シーケンス作成部116に出力する。
解析部112は、一次回答に感動詞が含まれ、かつ、当該感動詞の音節数が「2」以下であると解析すれば、当該一次回答を反復部114に供給する。なお、解析部112は、一次回答に感動詞が含まれていないと判別した場合、または、含まれていても当該感動詞の音節数が「3」以上であると解析した場合、当該一次回答をそのまま二次回答として音声シーケンス作成部116に出力する。
さて、一次回答作成部110によって作成された一次回答が例えば「はれです」であれば、解析部112は、当該一次回答に感動詞が含まれていないと判別する。また、当該一次回答が日本語の「はい」([ha−i])であれば、解析部112は、当該一次回答に感動詞が含まれていると判別するとともに、当該感動詞の音節数は「2」以下であると解析する。なお、当該一次回答が日本語の「いいえ」([i−i−e])であれば、解析部112は、当該一次回答に感動詞が含まれていると判別するが、当該感動詞の音節数は「3」以上であると解析する。
また、解析部112は、作成された一次回答が英語の「Yes」であれば、当該一次回答に感動詞が含まれていると判別するとともに、当該感動詞の音節数は「3」以上であると解析し、当該一次回答が英語の「No」であれば、当該一次回答に感動詞が含まれていると判別するとともに、当該感動詞の音節数は「2」以下であると解析する。
また、解析部112は、作成された一次回答が英語の「Yes」であれば、当該一次回答に感動詞が含まれていると判別するとともに、当該感動詞の音節数は「3」以上であると解析し、当該一次回答が英語の「No」であれば、当該一次回答に感動詞が含まれていると判別するとともに、当該感動詞の音節数は「2」以下であると解析する。
なお、一次回答に音節数が「2」以下の感動詞に含まれているか否かを判別することについては、解析部112が当該一次回答のテキストを解析しても良いし、例えば次のようにしても良い。詳細には、一次回答作成部110が一次回答について、感動詞を他の部分と識別可能にして作成し、解析部112が予め音節数が「2」以下の感動詞を複数登録しておくとともに、作成された一次回答のなかに識別される感動詞が存在し、かつ、登録しておいた感動詞とマッチすれば、当該一次回答に音節数が「2」以下の感動詞に含まれていると判別しても良い。一次回答のなかに識別される感動詞が存在せず、または、感動詞が存在しても、登録しておいた感動詞とマッチしなければ、解析部112は、当該一次回答に音節数が「2」以下の感動詞に含まれていないと判別しても良い。
反復部114は、音節数が「2」以下の感動詞を、複数回(第1実施形態では2回)反復して、音声合成すべき二次回答として出力する。上記の例でいえば、一次回答作成部110によって作成された一次回答が日本語の「はい」であれば、反復部114によって2回反復されて「はいはい」という二次回答を出力する。また、一次回答が英語の「No」であれば、反復部114によって2回反復されて「No、no」という二次回答を出力する。
音声シーケンス作成部116は、反復部114により感動詞が反復された二次回答、または、解析部112から出力された二次回答から、音声シーケンスを作成して合成部118に供給する。
ここで、音声シーケンスとは、二次回答を音声合成するためのデータであって、詳細には、当該二次回答を、どのようなタイミングで、どのようなピッチで、どのような音量等で、発声すべきかを規定するデータである。
ここで、音声シーケンスとは、二次回答を音声合成するためのデータであって、詳細には、当該二次回答を、どのようなタイミングで、どのようなピッチで、どのような音量等で、発声すべきかを規定するデータである。
合成部118は、音声シーケンスに基づいて音声合成して、合成された音声信号をデジタル信号で出力する。
なお、合成部118は、例えば次のようにして音声を合成する。すなわち、合成部118は、音声シーケンスで規定される回答内容を音声素片の列に変換するとともに、各音声素片の列に対応する音声素片データを、音声ライブラリ128から選択するとともに、繋ぎ部分が連続するように修正しつつ、接続した音声素片データに対する各々のピッチと音量を、当該音声シーケンスで規定されるピッチと音量に合わせて変換して、音声を合成する。
なお、ここでいう音声ライブラリ128とは、単一の音素や音素から音素への遷移部分など、音声の素材となる各種の音声素片の波形を定義した音声素片データを予めデータベース化したものである。
なお、合成部118は、例えば次のようにして音声を合成する。すなわち、合成部118は、音声シーケンスで規定される回答内容を音声素片の列に変換するとともに、各音声素片の列に対応する音声素片データを、音声ライブラリ128から選択するとともに、繋ぎ部分が連続するように修正しつつ、接続した音声素片データに対する各々のピッチと音量を、当該音声シーケンスで規定されるピッチと音量に合わせて変換して、音声を合成する。
なお、ここでいう音声ライブラリ128とは、単一の音素や音素から音素への遷移部分など、音声の素材となる各種の音声素片の波形を定義した音声素片データを予めデータベース化したものである。
次に、音声合成装置10の動作について説明する。図3は、音声合成装置10における処理動作を示すフローチャートである。
利用者が所定の操作をしたとき、例えば表示部13に表示されたメインメニュー画面において、利用者が対話処理に対応したアイコンなどを選択したとき、CPU11が当該処理に対応したアプリケーションプログラムを起動する。このアプリケーションプログラムの実行によって、図2で示した機能ブロックが構築される。
利用者が所定の操作をしたとき、例えば表示部13に表示されたメインメニュー画面において、利用者が対話処理に対応したアイコンなどを選択したとき、CPU11が当該処理に対応したアプリケーションプログラムを起動する。このアプリケーションプログラムの実行によって、図2で示した機能ブロックが構築される。
まず、利用者が音声入力部102に対して音声で問い掛けると(音声を入力すると)、音声入力部102は、当該音声をデジタルの音声信号に変換して、言語解析部108に供給する(ステップSa11)。
次に、言語解析部108は、問い掛けの音声信号を解析して、その意味(テキスト)を、一次回答作成部110に供給する(ステップSa12)。
一次回答作成部110は、解析された音声に対応する一次回答を、回答データベース124を参照したり、必要に応じて通信部126を介し外部サーバから取得した情報を参照したりして、作成し、解析部112に供給する(ステップSa13)。
次に、言語解析部108は、問い掛けの音声信号を解析して、その意味(テキスト)を、一次回答作成部110に供給する(ステップSa12)。
一次回答作成部110は、解析された音声に対応する一次回答を、回答データベース124を参照したり、必要に応じて通信部126を介し外部サーバから取得した情報を参照したりして、作成し、解析部112に供給する(ステップSa13)。
解析部112は、作成された一次回答に感動詞が含まれ、かつ、当該感動詞の音節数が「2」以下であるか否かを判別する(ステップSa14)。この判別の結果、解析部112は、この判別結果が「Yes」である場合、当該一次回答を反復部114に供給し、反復部114は、音節数が「2」以下の感動詞を2回反復させ、音声合成すべき二次回答として、音声シーケンス作成部116に供給する(ステップSa15)。
一方、解析部112は、作成された一次回答に感動詞が含まれない場合、または、含まれていても当該感動詞の音節数が「3」以上である場合(ステップSa14の判別結果が「No」である場合)、当該一次回答をそのまま音声合成すべき二次回答として、直接、音声シーケンス作成部116に供給する。
一方、解析部112は、作成された一次回答に感動詞が含まれない場合、または、含まれていても当該感動詞の音節数が「3」以上である場合(ステップSa14の判別結果が「No」である場合)、当該一次回答をそのまま音声合成すべき二次回答として、直接、音声シーケンス作成部116に供給する。
音声シーケンス作成部116は、一次回答作成部110または反復部114のいずれかから出力された二次回答に対応した音声シーケンスを作成して、合成部118に供給する(ステップSa16)。なお、音声シーケンスで規定される回答の発声タイミングや、ピッチ、音量等については、モデルとなるデータを、図示省略したデータベースから取得しても良い。
そして、合成部118は、音声シーケンス作成部116により作成された音声シーケンスにしたがって二次回答を音声合成する(ステップSa17)。なお、二次回答を音声合成して出力すると、特に図示しないが、CPU11は、当該アプリケーションプログラムの実行を終了させて、メニュー画面に戻す。
そして、合成部118は、音声シーケンス作成部116により作成された音声シーケンスにしたがって二次回答を音声合成する(ステップSa17)。なお、二次回答を音声合成して出力すると、特に図示しないが、CPU11は、当該アプリケーションプログラムの実行を終了させて、メニュー画面に戻す。
図4Aは、利用者による問い掛けの例を示す図であり、図4Bは、当該問い掛けに対して音声合成装置10により合成される回答の例を示す図である。
図4Aに示されるように、利用者Wが「あすははれ?」という問い掛け、つまり、明日の天気が晴れであることの確認を求める内容の音声を、端末装置である音声合成装置10に入力する場合を想定している。このとき、外部サーバを介して取得された天気情報が「晴れ」であるために、一次回答作成部110により作成された一次回答が当該問い掛けに対して肯定の意味である日本語の「はい」([ha−i])であれば、当該一次回答に感動詞が含まれ、かつ、感動詞の音節数が「2」であるので、図4Bに示されるように、当該「はい」([ha−i])が反復されて「はいはい」[ha−i−ha−i])と音声合成される。このため、利用者Wは、自身の問い掛けに対して、機械的ではなく、あたかも人と対話しているかのように、自然な感じを得ることができる。また、利用者Wからすれば、感動詞が反復されることで、共感が高められる。
図4Aに示されるように、利用者Wが「あすははれ?」という問い掛け、つまり、明日の天気が晴れであることの確認を求める内容の音声を、端末装置である音声合成装置10に入力する場合を想定している。このとき、外部サーバを介して取得された天気情報が「晴れ」であるために、一次回答作成部110により作成された一次回答が当該問い掛けに対して肯定の意味である日本語の「はい」([ha−i])であれば、当該一次回答に感動詞が含まれ、かつ、感動詞の音節数が「2」であるので、図4Bに示されるように、当該「はい」([ha−i])が反復されて「はいはい」[ha−i−ha−i])と音声合成される。このため、利用者Wは、自身の問い掛けに対して、機械的ではなく、あたかも人と対話しているかのように、自然な感じを得ることができる。また、利用者Wからすれば、感動詞が反復されることで、共感が高められる。
図5Aは、利用者による問い掛けの別の例を示す図であり、図5Bは、当該問い掛けに対して音声合成装置10により合成される回答の例を示す図である。
図5Aでは、利用者Wが「あすのてんきは?」つまり、明日の天気が何であるのかを具体的な内容を求める問い掛けを、音声合成装置10に入力する場合を想定している。この場合に、外部サーバを介して取得された天気情報が「晴れ」であるために、一次回答作成部110が一次回答として日本語の「はれです」([ha−re−de−su])を作成したとき、感動詞が含まれないので、図5Bに示されるように、そのまま「はれです」([ha−re−de−su])と音声合成される。
なお、日本語の「はれです」は、英語でいえば「It will be sunny.」である。
図5Aでは、利用者Wが「あすのてんきは?」つまり、明日の天気が何であるのかを具体的な内容を求める問い掛けを、音声合成装置10に入力する場合を想定している。この場合に、外部サーバを介して取得された天気情報が「晴れ」であるために、一次回答作成部110が一次回答として日本語の「はれです」([ha−re−de−su])を作成したとき、感動詞が含まれないので、図5Bに示されるように、そのまま「はれです」([ha−re−de−su])と音声合成される。
なお、日本語の「はれです」は、英語でいえば「It will be sunny.」である。
<第2実施形態>
次に、第2実施形態について説明する。なお、以下において第1実施形態と同様な要素については、第1実施形態の説明で使用した符号を流用しつつ、詳細な説明を適宜省略する。
次に、第2実施形態について説明する。なお、以下において第1実施形態と同様な要素については、第1実施形態の説明で使用した符号を流用しつつ、詳細な説明を適宜省略する。
図6は、第2実施形態における音声合成装置10の構成を示すブロック図である。図6が図2と相違する部分は、一次回答作成部110が言語解析部108によって解析された問い掛けに対応する一次回答のテキストを、モード設定部130に設定されたモードに応じて作成する点にある。なお、第2実施形態において、モード設定部130は、タッチパネル14(図1参照)から出力される情報をCPU11が処理することで、利用者によって設定されたモードを出力する。
第2実施形態において、一次回答作成部110に設定されるモードは2種類である。すなわち、利用者の問い掛けに対して感動詞だけの内容を作成すれば足りる場合であっても、敢えて当該感動詞の後に具体的内容を付加して一次回答を作成する第1モードと、利用者の問い掛けに対して感動詞だけの内容を作成すれば足りる場合であれば、当該感動詞のみの一次回答を作成し、利用者の問い掛けに対して感動詞では済まない内容を作成する必要がある場合であれば、当該問い掛けに対する具体的内容のみの一次回答を作成する第2モードとである。
例えば問い掛けが「あすははれ?」である場合に、第1モードであれば、一次回答作成部110が作成する一次回答は、例えば、肯定的かつ日本語であれば「はい、はれです」([ha−i ha−re−de−su])となる。すなわち、一次回答作成部110は、日本語の「はい」([ha−i])という感動詞に続けて、問い掛けに対する具体的内容であって日本語の「はれです」([ha−re−de−su])を付加したものを一次回答として作成する。
なお、この場合に、第2モードであれば、一次回答作成部110が作成する一次回答は、例えば肯定的かつ日本語であれば「はい」([ha−i])となり、感動詞のみとなる。また、第2モードにおいて、問い掛けが「あすの天気は?」である場合に、外部サーバを介して取得された天気情報が「晴れ」であれば、一次回答作成部110が作成する一次回答は、第1実施形態と同様に日本語であれば「はれです」([ha−re−de−su])となる。
なお、この場合に、第2モードであれば、一次回答作成部110が作成する一次回答は、例えば肯定的かつ日本語であれば「はい」([ha−i])となり、感動詞のみとなる。また、第2モードにおいて、問い掛けが「あすの天気は?」である場合に、外部サーバを介して取得された天気情報が「晴れ」であれば、一次回答作成部110が作成する一次回答は、第1実施形態と同様に日本語であれば「はれです」([ha−re−de−su])となる。
次に、第2実施形態の動作について説明する。
図7は、音声合成装置10における処理動作を示すフローチャートである。
図7が図3と相違する部分は、例えばステップSa11の前のステップSa10において、設定されたモードを一次回答作成部110が取得する点、および、ステップSa13において、言語解析部108によって解析された音声の意味に対応する一次回答のテキストを、設定されたモードに応じて一次回答作成部110が作成する点にある。
なお、第2実施形態では、ステップSa14において、解析部112が、第1モードまたは第2モードで作成された一次回答を解析し、上述したように一次回答作成部110によって作成された当該一次回答に感動詞が含まれ、かつ、含まれていれば当該感動詞の音節数が「2」以下であるか否かを解析部112が解析する点については第1実施形態と同様である。
図7は、音声合成装置10における処理動作を示すフローチャートである。
図7が図3と相違する部分は、例えばステップSa11の前のステップSa10において、設定されたモードを一次回答作成部110が取得する点、および、ステップSa13において、言語解析部108によって解析された音声の意味に対応する一次回答のテキストを、設定されたモードに応じて一次回答作成部110が作成する点にある。
なお、第2実施形態では、ステップSa14において、解析部112が、第1モードまたは第2モードで作成された一次回答を解析し、上述したように一次回答作成部110によって作成された当該一次回答に感動詞が含まれ、かつ、含まれていれば当該感動詞の音節数が「2」以下であるか否かを解析部112が解析する点については第1実施形態と同様である。
図8は、第2実施形態に係る音声合成装置10が合成する回答の例を示す図である。この例では、問い掛けとして図4Aで示したように、利用者Wが「あすははれ?」と入力する場合を想定している。
この場合に、外部サーバを介して取得された天気情報が「晴れ」であって、第1モードが設定されていれば、上述したように日本語で「はい、はれです」([ha−i ha−re−de−su])が一次回答として作成される。ただし、第2実施形態では、当該一次回答に含まれる感動詞の「はい」([ha−i])が複数回、ここでは2回反復されるとともに、反復された感動詞の後に、問い掛けに対する具体的内容が続いた「はいはい、はれです」([ha−i−ha−i ha−re−de−su])と、音声合成される。
第2実施形態によれば、利用者Wは、自身の問い掛けに対して、音節数が「2」以下の感動詞が反復された後に、自身の問い掛けを確認するかのような具体的内容が加わった回答が音声合成されるので、当該利用者Wの共感をさらに高めることができる。
この場合に、外部サーバを介して取得された天気情報が「晴れ」であって、第1モードが設定されていれば、上述したように日本語で「はい、はれです」([ha−i ha−re−de−su])が一次回答として作成される。ただし、第2実施形態では、当該一次回答に含まれる感動詞の「はい」([ha−i])が複数回、ここでは2回反復されるとともに、反復された感動詞の後に、問い掛けに対する具体的内容が続いた「はいはい、はれです」([ha−i−ha−i ha−re−de−su])と、音声合成される。
第2実施形態によれば、利用者Wは、自身の問い掛けに対して、音節数が「2」以下の感動詞が反復された後に、自身の問い掛けを確認するかのような具体的内容が加わった回答が音声合成されるので、当該利用者Wの共感をさらに高めることができる。
なお、第2実施形態において、外部サーバを介して取得された天気情報が「晴れ」であって、第2モードが設定されていれば、例えば感動詞のみの日本語の「はい」([ha−i])が作成される。このため、当該感動詞の「はい」([ha−i])が複数回、ここでは2回反復されて、図4Bに示されるように「はいはい」([ha−i−ha−i])と、音声合成されることになる。
<応用例・変形例>
本発明は、上述した実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。また、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。
本発明は、上述した実施形態に限定されるものではなく、例えば次に述べるような各種の応用・変形が可能である。また、次に述べる応用・変形の態様は、任意に選択された一または複数を適宜に組み合わせることもできる。
<反復の対象>
実施形態では、一次回答に、音節数が2以下の感動詞が含まれていれば、当該感動詞を2回以上反復して音声合成したが、上述したように、音節数が「2」以下の単純な語であれば、感動詞でなくても反復されやすい傾向がある。また、音節数が「3」以上の感動詞であっても、反復される傾向がある。
このため、解析部112は、一次回答に、次のような反復の対象(語)が含まれるか否かを解析して、当該対象があると解析した場合に、当該一次回答を反復部114に供給しても良い。
反復の第1対象としては、実施形態のように、音節数が2以下の感動詞が挙げられるが、第2対象としては、感動詞に限られず、音節数が「2」以下の単純な語も挙げられ、さらに、第3対象として、音節数が「3」以上の感動詞も挙げられる。最も好ましいのは、第1対象であって、第2対象および第3対象は、第1対象の代替案となる。
なお、音節数が「2」以下の単純な語は、単純であるがゆえに解析しにくい場合があり、また、音節数が「3」以上であって、反復される可能性のある感動詞は限定的であると考えられる。そこで、解析部112は、例えば予め登録しておいた対象が、一次回答に含まれるか否かを解析しても良い。
実施形態では、一次回答に、音節数が2以下の感動詞が含まれていれば、当該感動詞を2回以上反復して音声合成したが、上述したように、音節数が「2」以下の単純な語であれば、感動詞でなくても反復されやすい傾向がある。また、音節数が「3」以上の感動詞であっても、反復される傾向がある。
このため、解析部112は、一次回答に、次のような反復の対象(語)が含まれるか否かを解析して、当該対象があると解析した場合に、当該一次回答を反復部114に供給しても良い。
反復の第1対象としては、実施形態のように、音節数が2以下の感動詞が挙げられるが、第2対象としては、感動詞に限られず、音節数が「2」以下の単純な語も挙げられ、さらに、第3対象として、音節数が「3」以上の感動詞も挙げられる。最も好ましいのは、第1対象であって、第2対象および第3対象は、第1対象の代替案となる。
なお、音節数が「2」以下の単純な語は、単純であるがゆえに解析しにくい場合があり、また、音節数が「3」以上であって、反復される可能性のある感動詞は限定的であると考えられる。そこで、解析部112は、例えば予め登録しておいた対象が、一次回答に含まれるか否かを解析しても良い。
<音声入力部等>
実施形態では、音声入力部102は、利用者の音声をマイクロフォンで入力して音声信号に変換する構成としたが、この構成に限られず、他の処理部で処理された音声信号や、他の装置から供給された(または転送された)音声信号を入力する構成としても良い。すなわち、音声入力部102は、音声をなんらかの形で取得する構成であれば良い。
また、実施形態では、音声の意味内容に対応する一次回答をテキストで作成したが、テキスト以外のデータ、例えば音声波形データで作成しても良い。一次回答として音声波形データを用いる場合には、当該音声波形データを処理することにより、反復の対象の有無を解析すれば良い。この場合、二次回答についても音声波形データを用いることが好ましい。
なお、実施形態のよう一次回答をテキストで作成する構成の利点としては、反復の対象の解析精度が向上する点や、二次回答についてもテキストになるので、音声合成に際して都合が良い点などが挙げられる。
くわえて、一次回答作成部110は、入力された音声に対する一次回答を、回答データベース124の定型文を参照して作成するのではなく、外部サーバから直接取得しても良い。すなわち、一次回答作成部110は、入力された音声に対する一次回答を、なんらかの形で取得すれば足りる。
実施形態では、音声入力部102は、利用者の音声をマイクロフォンで入力して音声信号に変換する構成としたが、この構成に限られず、他の処理部で処理された音声信号や、他の装置から供給された(または転送された)音声信号を入力する構成としても良い。すなわち、音声入力部102は、音声をなんらかの形で取得する構成であれば良い。
また、実施形態では、音声の意味内容に対応する一次回答をテキストで作成したが、テキスト以外のデータ、例えば音声波形データで作成しても良い。一次回答として音声波形データを用いる場合には、当該音声波形データを処理することにより、反復の対象の有無を解析すれば良い。この場合、二次回答についても音声波形データを用いることが好ましい。
なお、実施形態のよう一次回答をテキストで作成する構成の利点としては、反復の対象の解析精度が向上する点や、二次回答についてもテキストになるので、音声合成に際して都合が良い点などが挙げられる。
くわえて、一次回答作成部110は、入力された音声に対する一次回答を、回答データベース124の定型文を参照して作成するのではなく、外部サーバから直接取得しても良い。すなわち、一次回答作成部110は、入力された音声に対する一次回答を、なんらかの形で取得すれば足りる。
<禁止モード>
実施形態において、音節数が「2」以下の感動詞については2回反復しているが、例えば「はい」([ha−i])を反復して「はいはい」([ha−i−ha−i])と音声合成して出力すると、いわゆる二度返事になり、状況によっては、利用者に不快な感じを与えてしまう場合がある。
そこで、感動詞の反復を禁止する動作モード(禁止モード)を設け、禁止モードが設定されていれば、感動詞の反復機能をキャンセルさせる構成とする。キャンセルさせる構成の例としては、禁止モードに設定されていれば、反復部114が、感動詞の反復機能を禁止する構成としても良いし、解析部112が、一次回答作成部110による一次回答に含まれる感動詞の音節数が「2」以下であっても、当該一次回答を反復部114に供給するのではなく、直接、音声シーケンス作成部116に供給する構成としても良い。いずれにしても、音節数が「2」以下の感動詞が反復されないような構成とする。
これにより、一次回答作成部110により作成された一次回答が2音節以下の「はい」([ha−i])であっても、図9に示されるように、反復されることなく、一次回答の通り「はい」([ha−i])が音声合成されることになる。
実施形態において、音節数が「2」以下の感動詞については2回反復しているが、例えば「はい」([ha−i])を反復して「はいはい」([ha−i−ha−i])と音声合成して出力すると、いわゆる二度返事になり、状況によっては、利用者に不快な感じを与えてしまう場合がある。
そこで、感動詞の反復を禁止する動作モード(禁止モード)を設け、禁止モードが設定されていれば、感動詞の反復機能をキャンセルさせる構成とする。キャンセルさせる構成の例としては、禁止モードに設定されていれば、反復部114が、感動詞の反復機能を禁止する構成としても良いし、解析部112が、一次回答作成部110による一次回答に含まれる感動詞の音節数が「2」以下であっても、当該一次回答を反復部114に供給するのではなく、直接、音声シーケンス作成部116に供給する構成としても良い。いずれにしても、音節数が「2」以下の感動詞が反復されないような構成とする。
これにより、一次回答作成部110により作成された一次回答が2音節以下の「はい」([ha−i])であっても、図9に示されるように、反復されることなく、一次回答の通り「はい」([ha−i])が音声合成されることになる。
なお、禁止モードや、上述した第1モードまたは第2モードについては、利用者が手動で設定しても良いし、入力された音声の内容や、音量、回答の内容、会話の履歴(状況)などを解析した結果に応じて装置が自動設定しても良い。
<音声・回答>
実施形態については、回答を、人の声で音声合成する構成としたが、人による声のほかにも、動物の鳴き声で音声合成しても良い。すなわち、反復の対象は、人の声に限られず、動物の鳴き声を含む概念である。
例えば、利用者が言語を問わず「いいてんきだね」という意味内容の問い掛けの音声を音声合成装置10に入力した場合、音声合成装置10は、猫の「ニャー」(英語で「Meow」)を反復して例えば「ニャーニャー」(英語で「Meow、meow」)というように音声合成する。
実施形態については、回答を、人の声で音声合成する構成としたが、人による声のほかにも、動物の鳴き声で音声合成しても良い。すなわち、反復の対象は、人の声に限られず、動物の鳴き声を含む概念である。
例えば、利用者が言語を問わず「いいてんきだね」という意味内容の問い掛けの音声を音声合成装置10に入力した場合、音声合成装置10は、猫の「ニャー」(英語で「Meow」)を反復して例えば「ニャーニャー」(英語で「Meow、meow」)というように音声合成する。
なお、動物の鳴き声を合成して出力する場合、利用者が望む情報を得ることはできない。つまり、利用者が問い掛けとして「あすのてんきは?」と質問しても、当該利用者は明日の天気情報を得ることはできない。しかしながら、利用者がなんらかの形で問い掛けたときに、当該問い掛けに対して、鳴き声で反応が返されると、当該利用者に対して、当該鳴き声を発する仮想的な動物とあたかも意志が通じているかのような、一種の癒しの効果を与えることが期待できるのである。
また、動物の鳴き声で音声合成する音声合成装置10については、端末装置に限られず、当該動物を模したペットロボットや、縫いぐるみなどに適用しても良い。
また、動物の鳴き声で音声合成する音声合成装置10については、端末装置に限られず、当該動物を模したペットロボットや、縫いぐるみなどに適用しても良い。
<その他>
実施形態では、反復を2回としたが、3回以上であっても良い。
また、CPU11が、入力された音声の内容や、音量、回答の内容、会話の履歴(状況)などに基づいて反復回数を適宜決定して設定する構成としても良い。
実施形態にあっては、問い掛けに対する一次回答を取得するための構成である言語解析部108、言語データベース122および回答データベース124を音声合成装置10の側に設けたが、端末装置などでは、処理の負荷が重くなる点や、記憶容量に制限がある点などを考慮して、外部サーバの側に設ける構成としても良い。すなわち、音声合成装置10においては、問い掛けに対する一次回答をなんらかの形で取得する構成であれば足り、その一次回答を、音声合成装置10の側で作成するのか、音声合成装置10以外の他の構成(例えば外部サーバ)の側で作成するのか、については問われない。
なお、音声合成装置10において、音声に対する回答について、外部サーバ等にアクセスしないで作成可能な用途であれば、情報取得部126は不要である。
実施形態では、反復を2回としたが、3回以上であっても良い。
また、CPU11が、入力された音声の内容や、音量、回答の内容、会話の履歴(状況)などに基づいて反復回数を適宜決定して設定する構成としても良い。
実施形態にあっては、問い掛けに対する一次回答を取得するための構成である言語解析部108、言語データベース122および回答データベース124を音声合成装置10の側に設けたが、端末装置などでは、処理の負荷が重くなる点や、記憶容量に制限がある点などを考慮して、外部サーバの側に設ける構成としても良い。すなわち、音声合成装置10においては、問い掛けに対する一次回答をなんらかの形で取得する構成であれば足り、その一次回答を、音声合成装置10の側で作成するのか、音声合成装置10以外の他の構成(例えば外部サーバ)の側で作成するのか、については問われない。
なお、音声合成装置10において、音声に対する回答について、外部サーバ等にアクセスしないで作成可能な用途であれば、情報取得部126は不要である。
実施形態に係る音声合成装置10としては、端末装置のほか、専用の電子回路や、汎用のパーソナルコンピュータによって実現しても良い。パーソナルコンピュータで実現する場合、マイクロフォンとスピーカと接続するとともに、予めインストールしたアプリケーションプログラムを実行することによって実現される。この場合、パーソナルコンピュータにインストールするアプリケーションプログラムについては、端末装置と同様にインターネット経由でダウンロードしても良いし、コンピュータが読取可能な記録媒体に格納された状態で提供されても良い。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体など任意である。
また、実施形態に係る音声合成装置は、音声を合成する音声合成方法としても実現可能である。
また、実施形態に係る音声合成装置は、音声を合成する音声合成方法としても実現可能である。
10…音声合成装置、22…取得部、24…音声合成部、102…音声入力部、108…言語解析部、110…一次回答作成部、112…解析部、114…反復部、116…音声シーケンス作成部、118…合成部、126…通信部。
Claims (11)
- コンピュータが、
入力された音声に対して、音声合成すべき反応を取得し、
前記反応に、音節数が2以下の対象語が含まれるか否かを解析し、
前記反応に、前記対象語が含まれていると解析した場合に、当該対象語を2回以上反復した音声信号を出力するように制御する
音声制御方法。 - 前記対象語は、音節数が2以下で予め登録された語である
ことを特徴とする請求項1に記載の音声制御方法。 - 前記対象語は、音節数が2以下の感動詞であり、
前記解析において、
前記反応に感動詞が含まれているか否かを判別し、
感動詞が含まれていると判別した場合に、当該感動詞が、音節数が2以下の前記対象語である否かを解析する
ことを特徴とする請求項1に記載の音声制御方法。 - 前記取得において、
入力された音声の意味を解析し、
解析した意味に対応する反応を作成する
ことを特徴とする請求項3に記載の音声制御方法。 - 前記制御において、
前記解析によって、前記反応に含まれる感動詞の音節数が2以下の前記対象語であると解析した場合に、当該感動詞を前記対象語として2回以上反復した音声信号を出力するように制御する
ことを特徴とする請求項3または4に記載の音声制御方法。 - 前記制御において、
前記解析部によって、前記反応に含まれる感動詞が、音節数が3以上であり、前記対象語ではないと解析された場合には、当該反応の音声信号が出力するように制御する
ことを特徴とする請求項5に記載の音声制御方法。 - 前記制御において、
取得した反応から音声シーケンスを作成し、
当該音声シーケンスにより前記音声信号を出力するように制御する
ことを特徴とする請求項6に記載の音声制御方法。 - 第1モードおよび第2モードを有し、
前記反応の作成において、
前記第1モードであれば、感動詞に具体的内容を加えた反応を作成し、
前記第2モードであれば、感動詞のみの反応、または、具体的内容のみの反応を、作成する
ことを特徴とする請求項4に記載の音声制御方法。 - 禁止モードを有し、
前記禁止モードであれば、
前記解析において、前記音節数が2以下の感動詞を前記対象語ではないと解析し、
前記制御において、前記反応の音声信号を出力するように制御する
ことを特徴とする請求項6または8に記載の音声制御方法。 - 入力された音声に対して、音声合成すべき反応を取得する取得部と、
前記反応に、音節数が2以下の対象語が含まれるか否かを解析する解析部と、
前記反応に、前記対象語が含まれていると解析された場合に、当該対象語を2回以上反復した音声信号を出力するように制御する制御部と、
を具備する音声制御装置。 - コンピュータを、
入力された音声に対して、音声合成すべき反応を取得する取得部、
前記反応に、音節数が2以下の対象語が含まれるか否かを解析する解析部、および、
前記反応に、前記対象語が含まれていると解析された場合に、当該対象語を2回以上反復した音声信号を出力するように制御する制御部、
として機能させることを特徴とするプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014136812 | 2014-07-02 | ||
JP2014136812 | 2014-07-02 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016531443A Division JP6428774B2 (ja) | 2014-07-02 | 2015-07-02 | 音声制御装置、音声制御方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019045867A JP2019045867A (ja) | 2019-03-22 |
JP6648805B2 true JP6648805B2 (ja) | 2020-02-14 |
Family
ID=55019406
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016531443A Expired - Fee Related JP6428774B2 (ja) | 2014-07-02 | 2015-07-02 | 音声制御装置、音声制御方法およびプログラム |
JP2018206267A Expired - Fee Related JP6648805B2 (ja) | 2014-07-02 | 2018-11-01 | 音声制御方法、音声制御装置およびプログラム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016531443A Expired - Fee Related JP6428774B2 (ja) | 2014-07-02 | 2015-07-02 | 音声制御装置、音声制御方法およびプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US10224021B2 (ja) |
EP (1) | EP3166104B1 (ja) |
JP (2) | JP6428774B2 (ja) |
CN (1) | CN106471569B (ja) |
WO (1) | WO2016002879A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10943583B1 (en) * | 2017-07-20 | 2021-03-09 | Amazon Technologies, Inc. | Creation of language models for speech recognition |
US10600408B1 (en) * | 2018-03-23 | 2020-03-24 | Amazon Technologies, Inc. | Content output management based on speech quality |
US10530465B2 (en) * | 2018-05-30 | 2020-01-07 | Motorola Solutions, Inc. | Apparatus, system and method for generating a virtual assistant on a repeater |
US11393471B1 (en) * | 2020-03-30 | 2022-07-19 | Amazon Technologies, Inc. | Multi-device output management based on speech characteristics |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05216618A (ja) | 1991-11-18 | 1993-08-27 | Toshiba Corp | 音声対話システム |
DE69232407T2 (de) | 1991-11-18 | 2002-09-12 | Toshiba Kawasaki Kk | Sprach-Dialog-System zur Erleichterung von Rechner-Mensch-Wechselwirkung |
DE19861167A1 (de) * | 1998-08-19 | 2000-06-15 | Christoph Buskies | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten |
SE0004221L (sv) | 2000-11-17 | 2002-04-02 | Forskarpatent I Syd Ab | Metod och anordning för talanalys |
JP2002311981A (ja) | 2001-04-17 | 2002-10-25 | Sony Corp | 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体 |
GB0112749D0 (en) | 2001-05-25 | 2001-07-18 | Rhetorical Systems Ltd | Speech synthesis |
GB0113581D0 (en) * | 2001-06-04 | 2001-07-25 | Hewlett Packard Co | Speech synthesis apparatus |
JP2003271194A (ja) | 2002-03-14 | 2003-09-25 | Canon Inc | 音声対話装置及びその制御方法 |
JP2004110673A (ja) | 2002-09-20 | 2004-04-08 | Nippon Telegr & Teleph Corp <Ntt> | 文章スタイル変換方法、文章スタイル変換装置、文章スタイル変換プログラム、文章スタイル変換プログラムを格納した記録媒体 |
JP4038211B2 (ja) * | 2003-01-20 | 2008-01-23 | 富士通株式会社 | 音声合成装置,音声合成方法および音声合成システム |
US6955602B2 (en) | 2003-05-15 | 2005-10-18 | Zi Technology Corporation Ltd | Text entry within a video game |
US20050154594A1 (en) * | 2004-01-09 | 2005-07-14 | Beck Stephen C. | Method and apparatus of simulating and stimulating human speech and teaching humans how to talk |
JP2006039120A (ja) * | 2004-07-26 | 2006-02-09 | Sony Corp | 対話装置および対話方法、並びにプログラムおよび記録媒体 |
JP2006157538A (ja) * | 2004-11-30 | 2006-06-15 | Sony Corp | 電話システムおよび電話システムの音声出力方法 |
JP4832097B2 (ja) | 2006-02-13 | 2011-12-07 | 富士通テン株式会社 | 音声対話システム |
KR100764174B1 (ko) * | 2006-03-03 | 2007-10-08 | 삼성전자주식회사 | 음성 대화 서비스 장치 및 방법 |
CN100501782C (zh) * | 2006-09-30 | 2009-06-17 | 山东建筑大学 | 智能语音警示系统 |
JP2010175717A (ja) * | 2009-01-28 | 2010-08-12 | Mitsubishi Electric Corp | 音声合成装置 |
US8930192B1 (en) * | 2010-07-27 | 2015-01-06 | Colvard Learning Systems, Llc | Computer-based grapheme-to-speech conversion using a pointing device |
CN102324231A (zh) * | 2011-08-29 | 2012-01-18 | 北京捷通华声语音技术有限公司 | 一种游戏对话声音合成方法和系统 |
US9064492B2 (en) * | 2012-07-09 | 2015-06-23 | Nuance Communications, Inc. | Detecting potential significant errors in speech recognition results |
US9799328B2 (en) * | 2012-08-03 | 2017-10-24 | Veveo, Inc. | Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval |
KR101709187B1 (ko) * | 2012-11-14 | 2017-02-23 | 한국전자통신연구원 | 계층적 대화 태스크 라이브러리를 이용한 이중 대화관리 기반 음성대화시스템 |
JP5821824B2 (ja) * | 2012-11-14 | 2015-11-24 | ヤマハ株式会社 | 音声合成装置 |
US9292488B2 (en) * | 2014-02-01 | 2016-03-22 | Soundhound, Inc. | Method for embedding voice mail in a spoken utterance using a natural language processing computer system |
-
2015
- 2015-07-02 CN CN201580035951.5A patent/CN106471569B/zh active Active
- 2015-07-02 JP JP2016531443A patent/JP6428774B2/ja not_active Expired - Fee Related
- 2015-07-02 EP EP15814984.9A patent/EP3166104B1/en active Active
- 2015-07-02 WO PCT/JP2015/069126 patent/WO2016002879A1/ja active Application Filing
- 2015-07-02 US US15/316,850 patent/US10224021B2/en not_active Expired - Fee Related
-
2018
- 2018-11-01 JP JP2018206267A patent/JP6648805B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP6428774B2 (ja) | 2018-11-28 |
US20170116978A1 (en) | 2017-04-27 |
EP3166104A4 (en) | 2018-03-07 |
EP3166104A1 (en) | 2017-05-10 |
CN106471569B (zh) | 2020-04-28 |
JP2019045867A (ja) | 2019-03-22 |
JPWO2016002879A1 (ja) | 2017-04-27 |
WO2016002879A1 (ja) | 2016-01-07 |
US10224021B2 (en) | 2019-03-05 |
CN106471569A (zh) | 2017-03-01 |
EP3166104B1 (en) | 2019-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6648805B2 (ja) | 音声制御方法、音声制御装置およびプログラム | |
EP3399521B1 (en) | Technology for responding to remarks using speech synthesis | |
JP4471128B2 (ja) | 半導体集積回路装置、電子機器 | |
US20180130462A1 (en) | Voice interaction method and voice interaction device | |
WO2016088557A1 (ja) | 会話評価装置および方法 | |
JP2007328283A (ja) | 対話装置、プログラム、及び対話方法 | |
JP2007264284A (ja) | 感情付加装置、感情付加方法及び感情付加プログラム | |
JP6343895B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6566076B2 (ja) | 音声合成方法およびプログラム | |
JP6424419B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6375604B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP6289950B2 (ja) | 読み上げ装置、読み上げ方法及びプログラム | |
JP2006330060A (ja) | 音声合成装置、音声処理装置、およびプログラム | |
JP6648786B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP2010224392A (ja) | 発話補助装置、方法及びプログラム | |
JP6343896B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JP2019061050A (ja) | 対話装置、対話方法及びプログラム | |
JP6536713B2 (ja) | 音声制御装置、音声制御方法およびプログラム | |
JPH11259094A (ja) | 規則音声合成装置 | |
JP6232892B2 (ja) | 音声合成装置およびプログラム | |
JP2019061487A (ja) | 対話装置、対話方法及びプログラム | |
Kassas | Real-time change in prosodic aspects of text generated speech | |
JP2001209391A (ja) | 音声処理装置、情報処理装置、情報処理システム、音声処理方法、及び記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191217 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191230 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6648805 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |