JP6124844B2 - SERVER, METHOD USING DATABASE, PROGRAM, SYSTEM, TERMINAL, TERMINAL PROGRAM, AND VOICE DATA OUTPUT DEVICE - Google Patents
SERVER, METHOD USING DATABASE, PROGRAM, SYSTEM, TERMINAL, TERMINAL PROGRAM, AND VOICE DATA OUTPUT DEVICE Download PDFInfo
- Publication number
- JP6124844B2 JP6124844B2 JP2014129415A JP2014129415A JP6124844B2 JP 6124844 B2 JP6124844 B2 JP 6124844B2 JP 2014129415 A JP2014129415 A JP 2014129415A JP 2014129415 A JP2014129415 A JP 2014129415A JP 6124844 B2 JP6124844 B2 JP 6124844B2
- Authority
- JP
- Japan
- Prior art keywords
- request
- response
- character
- dictionary
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Manipulator (AREA)
- Electric Vacuum Cleaner (AREA)
Description
本開示は、データベース、データベースを利用する方法、プログラム、システム、端末、端末プログラムおよび音声データ出力装置に関する。 The present disclosure relates to a database, a method using the database, a program, a system, a terminal, a terminal program, and an audio data output device.
従来より、対話システムとして、ユーザと対話可能なシステムが提案されている。当該システムにおては、対話に用いられる複数のキャラクタの音声が設けられ、使用するユーザの好みに合わせてキャラクタの音声を切り替えることも一般的に行われている(特許文献1)。 Conventionally, a system capable of interacting with a user has been proposed as a dialog system. In this system, voices of a plurality of characters used for dialogue are provided, and switching of character voices is generally performed in accordance with the user's preference (Patent Document 1).
一方で、複数のキャラクタの音声を利用可能にした場合には、それぞれのキャラクタ毎に対話に必要な辞書を用意する必要がある。 On the other hand, when the voices of a plurality of characters are made available, it is necessary to prepare a dictionary necessary for dialogue for each character.
この点で、新しい機能の対話パターンが追加される毎にそれぞれのキャラクタの辞書を更新する必要があり、キャラクタの数が多い場合には煩雑になるという課題がある。 In this regard, it is necessary to update the dictionary of each character every time a new function dialogue pattern is added, and there is a problem that the number of characters becomes complicated.
本開示は、上述のような課題を解決するためになされたものであって、簡易な方式で辞書を更新することが可能なデータベース、データベースを利用する方法、プログラム、システム、端末、端末プログラムおよび音声データ出力装置を提供することを目的とする。 The present disclosure has been made to solve the above-described problem, and is a database capable of updating a dictionary in a simple manner, a method using the database, a program, a system, a terminal, a terminal program, and An object is to provide an audio data output device.
本開示の一実施形態に従うデータベースは、ユーザからの要求に対する応答処理に利用され、追記可能に構成されるデータベースであって、選択可能な複数のキャラクタにそれぞれ対応して設けられ、当該キャラクタ毎に第1の要求に対する応答処理に用いられる応答データが保存された複数の基本辞書と、複数のキャラクタに関連付けられ、選択されたキャラクタに対応する基本辞書の代わりに第2の要求に対する応答処理に用いられる応答データが保存された追加辞書とを含む。 A database according to an embodiment of the present disclosure is a database configured to be additionally writable and used for response processing to a request from a user, provided for each of a plurality of selectable characters, and for each of the characters A plurality of basic dictionaries in which response data used for response processing to the first request is stored, and used for response processing to the second request instead of the basic dictionary associated with the plurality of characters and corresponding to the selected character. And an additional dictionary in which response data is stored.
好ましくは、追加辞書は、複数のキャラクタを抽象化した抽象キャラクタに対応して設けられる。 Preferably, the additional dictionary is provided corresponding to an abstract character obtained by abstracting a plurality of characters.
好ましくは、応答データは、ユーザからの要求に対する応答処理として音声出力するために利用されるテキストデータである。 Preferably, the response data is text data used for outputting a voice as a response process to a request from the user.
好ましくは、追加辞書の応答データは、基本辞書の応答データの共通の特徴を残して固有の特徴を排して一般化したテキストデータである。 Preferably, the response data of the additional dictionary is text data that is generalized while excluding unique features while leaving the common features of the response data of the basic dictionary.
本開示の一実施形態に従う方法は、追記可能に構成され、選択可能な複数のキャラクタにそれぞれ対応して設けられ、当該キャラクタ毎に応答データが保存された複数の基本辞書と、複数のキャラクタに関連付けられ、選択されたキャラクタに対応する基本辞書の代わりに用いられる応答データが保存された追加辞書とを含むデータベースを利用する方法であって、ユーザからの要求を受け付けるステップと、キャラクタの選択を受け付けるステップと、受け付けた要求に従って応答処理を実行するステップとを備える。応答処理を実行するステップは、受け付けた要求が第1の要求である場合に、選択されたキャラクタに対応して設けられた基本辞書を利用して応答データを抽出するステップと、受け付けた要求が第2の要求である場合に、選択されたキャラクタに関連付られた追加辞書を利用して応答データを抽出するステップと、抽出した応答データと、選択されたキャラクタとに基づいて音声合成するステップと、音声合成した音声データを出力するステップとを含む。 A method according to an embodiment of the present disclosure is configured to be additionally writable, provided corresponding to a plurality of selectable characters, and a plurality of basic dictionaries in which response data is stored for each character, and a plurality of characters. A method using a database including an additional dictionary in which response data stored in response data used instead of the basic dictionary corresponding to the selected character is stored, the step of receiving a request from the user, and the selection of the character A step of accepting, and a step of executing response processing in accordance with the accepted request. The step of executing the response process includes a step of extracting response data using a basic dictionary provided corresponding to the selected character when the received request is the first request, and the received request includes If it is the second request, extracting response data using an additional dictionary associated with the selected character, synthesizing speech based on the extracted response data and the selected character And outputting voice data obtained by voice synthesis.
本開示の一実施形態に従うプログラムは、追記可能に構成され、選択可能な複数のキャラクタにそれぞれ対応して設けられ、当該キャラクタ毎に応答データが保存された複数の基本辞書と、複数のキャラクタに関連付けられ、選択されたキャラクタに対応する基本辞書の代わりに用いられる応答データが保存された追加辞書とを含むデータベースを利用するコンピュータに実行させるためのプログラムであって、プログラムは、コンピュータに、ユーザからの要求を受け付けるステップと、キャラクタの選択を受け付けるステップと、受け付けた要求に従って応答処理を実行するステップとを備える、処理を実行させるように機能させる。応答処理を実行するステップは、受け付けた要求が第1の要求である場合に、選択されたキャラクタに対応して設けられた基本辞書を利用して応答データを抽出するステップと、受け付けた要求が第2の要求である場合に、選択されたキャラクタに関連付られた追加辞書を利用して応答データを抽出するステップと、抽出した応答データと、選択されたキャラクタとに基づいて音声合成するステップと、音声合成した音声データを出力するステップとを含む。 A program according to an embodiment of the present disclosure is configured to be additionally writable, provided corresponding to each of a plurality of selectable characters, a plurality of basic dictionaries in which response data is stored for each character, and a plurality of characters A program for causing a computer to use a database including an additional dictionary in which response data used in place of a basic dictionary corresponding to a selected character is stored and stored in the computer. And a step of receiving a selection from the character, a step of receiving a selection of a character, and a step of executing a response process in accordance with the received request. The step of executing the response process includes a step of extracting response data using a basic dictionary provided corresponding to the selected character when the received request is the first request, and the received request includes If it is the second request, extracting response data using an additional dictionary associated with the selected character, synthesizing speech based on the extracted response data and the selected character And outputting voice data obtained by voice synthesis.
本開示の一実施形態に従うシステムは、追記可能に構成されるデータベースを利用するシステムであって、ユーザからの要求を受け付ける受付手段と、キャラクタの選択を受け付ける選択受付手段と、受付手段で受け付けた要求に従って応答処理を実行する応答実行手段とを備る。データベースは、選択可能な複数のキャラクタにそれぞれ対応して設けられ、当該キャラクタ毎に応答データが保存された複数の基本辞書と、複数のキャラクタに関連付けられ、選択されたキャラクタに対応する基本辞書の代わりに用いられる応答データが保存された追加辞書とを含む。応答実行手段は、受け付けた要求が第1の要求である場合に、選択されたキャラクタに対応して設けられた基本辞書を利用して応答データを抽出する第1抽出手段と、受け付けた要求が第2の要求である場合に、選択されたキャラクタに関連付られた追加辞書を利用して応答データを抽出する第2抽出手段と、抽出した応答データと、選択されたキャラクタとに基づいて音声合成する音声合成手段と、音声合成した音声データを出力する出力手段とを含む。 A system according to an embodiment of the present disclosure is a system that uses a database configured to be additionally writable, and is received by a receiving unit that receives a request from a user, a selection receiving unit that receives a selection of a character, and a receiving unit. Response execution means for executing response processing according to the request is provided. A database is provided corresponding to each of a plurality of selectable characters, a plurality of basic dictionaries in which response data is stored for each character, and a basic dictionary corresponding to the plurality of characters and corresponding to the selected character. And an additional dictionary in which response data used instead is stored. When the received request is the first request, the response execution means includes a first extraction means for extracting response data using a basic dictionary provided corresponding to the selected character, and the received request is In the case of the second request, the second extraction means for extracting response data using an additional dictionary associated with the selected character, voice based on the extracted response data and the selected character Speech synthesis means for synthesizing; and output means for outputting the synthesized voice data.
本開示の別の実施形態に従う方法は、追記可能に構成され、選択可能な複数のキャラクタにそれぞれ対応して設けられ、当該キャラクタ毎に応答データが保存された複数の基本辞書を含む第1のデータベースと、複数のキャラクタに関連付けられ、選択されたキャラクタに対応する基本辞書の代わりに用いられる応答データが保存された追加辞書を含む第2のデータベースを利用する方法であって、ユーザからの要求を受け付けるステップと、キャラクタの選択を受け付けるステップと、受け付けた要求に従って応答処理を実行するステップとを備える。応答処理を実行するステップは、受け付けた要求が第1の要求である場合に、選択されたキャラクタに対応して設けられた第1のデータベースの基本辞書を利用して応答データを抽出するステップと、受け付けた要求が第2の要求である場合に、選択されたキャラクタに関連付られた第2のデータベースの追加辞書を利用して応答データを抽出するステップと、抽出した応答データと、選択されたキャラクタとに基づいて音声合成するステップと、音声合成した音声データを出力するステップとを含む。 A method according to another embodiment of the present disclosure includes a plurality of basic dictionaries configured to be additionally writable, provided corresponding to a plurality of selectable characters, and including a plurality of basic dictionaries in which response data is stored for each character. A method using a second database including a database and an additional dictionary associated with a plurality of characters and storing response data used in place of a basic dictionary corresponding to a selected character, the request from a user , Receiving a character selection, and executing a response process in accordance with the received request. The step of executing the response process is a step of extracting response data using the basic dictionary of the first database provided corresponding to the selected character when the received request is the first request. When the received request is a second request, a step of extracting response data using an additional dictionary of the second database associated with the selected character, and the extracted response data are selected. And synthesizing the voice based on the character and outputting the synthesized voice data.
本開示の一実施形態に従う端末は、外部装置に設けられ、追記可能に構成され、選択可能な複数のキャラクタにそれぞれ対応して設けられ、当該キャラクタ毎に第1の要求に対する応答処理に用いられる応答データが保存された複数の基本辞書と、複数のキャラクタに関連付けられ、選択されたキャラクタに対応する基本辞書の代わりに第2の要求に対する応答処理に用いられる応答データが保存された追加辞書とを含むデータベースを利用する端末であって、ユーザからの第1あるいは第2の要求を受け付ける受付手段と、キャラクタの選択を受け付ける選択受付手段と、受付手段で受け付けた第1あるいは第2の要求に応じてデータベースを利用して抽出された応答データと選択受付手段で選択されたキャラクタとに基づいて音声合成された音声データを出力する出力手段とを備える。 A terminal according to an embodiment of the present disclosure is provided in an external device, is configured to be additionally writable, is provided corresponding to each of a plurality of selectable characters, and is used for response processing to the first request for each character. A plurality of basic dictionaries in which response data is stored, and an additional dictionary in which response data stored in response processing for the second request is stored in place of the basic dictionary associated with the plurality of characters and corresponding to the selected character A receiving unit that receives a first or second request from a user, a selection receiving unit that receives a selection of a character, and a first or second request received by the receiving unit. The voice synthesis based on the response data extracted using the database and the character selected by the selection receiving means. And output means for outputting the audio data.
本開示の別の実施形態に従う端末は、本体内に設けられ、追記可能に構成され、選択可能な複数のキャラクタにそれぞれ対応して設けられ、当該キャラクタ毎に第1の要求に対する応答処理に用いられる応答データが保存された複数の基本辞書を含む第1のデータベースと、外部装置に設けられ、複数のキャラクタに関連付けられ、選択されたキャラクタに対応する基本辞書の代わりに第2の要求に対する応答処理に用いられる応答データが保存された追加辞書を含む第2のデータベースを利用する端末であって、ユーザからの第1あるいは第2の要求を受け付ける受付手段と、キャラクタの選択を受け付ける選択受付手段と、受付手段で受け付けた要求に従って応答処理を実行する応答実行手段とを備える。応答実行手段は、受付手段で第1の要求を受け付けた場合に、選択されたキャラクタに対応して設けられた第1のデータベースの基本辞書を利用して応答データを抽出する抽出手段と、受付手段で第2の要求を受け付けた場合に、選択されたキャラクタに関連付けられた第2のデータベースの追加辞書を利用して抽出された応答データを取得する取得手段と、抽出あるいは取得された応答データと選択受付手段で選択されたキャラクタとに基づいて音声合成する音声合成手段と、音声合成した音声データを出力する出力手段とを含む。 A terminal according to another embodiment of the present disclosure is provided in the main body, is configured to be additionally writable, is provided corresponding to each of a plurality of selectable characters, and is used for response processing for the first request for each character. A first database including a plurality of basic dictionaries in which response data is stored, and a response to the second request instead of the basic dictionary corresponding to the selected character provided in the external device and associated with the plurality of characters A terminal using a second database including an additional dictionary in which response data used for processing is stored, receiving means for receiving a first or second request from a user, and selection receiving means for receiving a selection of a character And response executing means for executing response processing in accordance with the request received by the receiving means. The response execution means includes an extraction means for extracting response data using the basic dictionary of the first database provided corresponding to the selected character when the reception means receives the first request; Means for acquiring response data extracted using the additional dictionary of the second database associated with the selected character when the means receives the second request, and the response data extracted or acquired And a voice synthesizing unit that synthesizes speech based on the character selected by the selection accepting unit, and an output unit that outputs the synthesized voice data.
本開示の別の実施形態に従う端末は、外部装置に設けられ、選択可能な複数のキャラクタにそれぞれ対応して設けられ、当該キャラクタ毎に第1の要求に対する応答処理に用いられる応答データが保存された複数の基本辞書を含む第1のデータベースと、本体内に設けられ、複数のキャラクタに関連付けられ、選択されたキャラクタに対応する基本辞書の代わりに第2の要求に対する応答処理に用いられる応答データが保存された追加辞書を含む第2のデータベースを利用する端末であって、ユーザからの第1あるいは第2の要求を受け付ける受付手段と、キャラクタの選択を受け付ける選択受付手段と、受付手段で受け付けた要求に従って応答処理を実行する応答実行手段とを備える。応答実行手段は、受付手段で第1の要求を受け付けた場合に、選択されたキャラクタに対応して設けられた第1のデータベースの基本辞書を利用して応答データを取得する取得手段と、受付手段で第2の要求を受け付けた場合に、選択されたキャラクタに関連付けられた第2のデータベースの追加辞書を利用して応答データを抽出する抽出手段と、抽出あるいは取得された応答データと選択受付手段で選択されたキャラクタとに基づいて音声合成する音声合成手段と、音声合成した音声データを出力する出力手段とを含む。 A terminal according to another embodiment of the present disclosure is provided in an external device, provided corresponding to each of a plurality of selectable characters, and response data used for response processing to the first request is stored for each character. A first database including a plurality of basic dictionaries and response data provided in the main body, associated with the plurality of characters, and used for response processing to the second request instead of the basic dictionary corresponding to the selected character Is a terminal that uses the second database including the additional dictionary in which is stored, and accepts the first or second request from the user, the selection accepting means for accepting the selection of the character, and the accepting means. Response executing means for executing response processing according to the received request. A response execution unit configured to acquire response data by using a basic dictionary of the first database provided corresponding to the selected character when the reception unit receives the first request; Means for extracting response data using the additional dictionary of the second database associated with the selected character when the second request is received by the means, and the response data extracted and acquired and the selection reception Speech synthesizing means for synthesizing speech based on the character selected by the means, and output means for outputting the synthesized voice data.
本開示の別の実施形態に従う端末は、本体内に設けられ、追記可能に構成され、選択可能な複数のキャラクタにそれぞれ対応して設けられ、当該キャラクタ毎に第1の要求に対する応答処理に用いられる応答データが保存された複数の基本辞書と、複数のキャラクタに関連付けられ、選択されたキャラクタに対応する基本辞書の代わりに第2の要求に対する応答処理に用いられる応答データが保存された追加辞書とを含むデータベースを利用する端末であって、ユーザからの第1あるいは第2の要求を受け付ける受付手段と、キャラクタの選択を受け付ける選択受付手段と、受付手段で受け付けた要求に従って応答処理を実行する応答実行手段とを備える。応答実行手段は、受付手段で第1の要求を受け付けた場合に、選択されたキャラクタに対応して設けられた第1のデータベースの基本辞書を利用して応答データを抽出する第1の抽出手段と、受付手段で第2の要求を受け付けた場合に、選択されたキャラクタに関連付けられた第2のデータベースの追加辞書を利用して応答データを抽出する第2の抽出手段と、抽出された応答データと選択受付手段で選択されたキャラクタとに基づいて音声合成する音声合成手段と、音声合成した音声データを出力する出力手段とを含む。 A terminal according to another embodiment of the present disclosure is provided in the main body, is configured to be additionally writable, is provided corresponding to each of a plurality of selectable characters, and is used for response processing for the first request for each character. A plurality of basic dictionaries in which response data is stored, and an additional dictionary in which response data stored in response processing for the second request is stored in place of the basic dictionary associated with the plurality of characters and corresponding to the selected character A terminal that uses a database including: a receiving unit that receives a first or second request from a user, a selection receiving unit that receives a selection of a character, and a response process according to the request received by the receiving unit Response execution means. The response executing means extracts first response data using the basic dictionary of the first database provided corresponding to the selected character when the accepting means accepts the first request. And a second extracting means for extracting response data using an additional dictionary in the second database associated with the selected character when the receiving means accepts the second request, and the extracted response Speech synthesis means for synthesizing speech based on the data and the character selected by the selection accepting means, and output means for outputting the synthesized voice data.
本開示の一実施形態に従う端末プログラムは、外部装置に設けられ、追記可能に構成され、選択可能な複数のキャラクタにそれぞれ対応して設けられ、当該キャラクタ毎に第1の要求に対する応答処理に用いられる応答データが保存された複数の基本辞書と、複数のキャラクタに関連付けられ、選択されたキャラクタに対応する基本辞書の代わりに第2の要求に対する応答処理に用いられる応答データが保存された追加辞書とを含むデータベースを利用する端末のコンピュータに実行させるための端末プログラムであって、端末プログラムは、コンピュータにユーザからの第1あるいは第2の要求を受け付けるステップと、キャラクタの選択を受け付けるステップと、受け付けた第1あるいは第2の要求に応じてデータベースを利用して抽出された応答データと選択受付手段で選択されたキャラクタとに基づいて音声合成された音声データを出力するステップとを備える、処理を実行させるように機能させる。 A terminal program according to an embodiment of the present disclosure is provided in an external device, configured to be additionally writable, provided corresponding to each of a plurality of selectable characters, and used for response processing to the first request for each character. A plurality of basic dictionaries in which response data is stored, and an additional dictionary in which response data stored in response processing for the second request is stored in place of the basic dictionary associated with the plurality of characters and corresponding to the selected character A terminal program that causes a computer of a terminal that uses a database including the terminal program to receive a first or second request from a user to the computer, a step of receiving a selection of a character, Extraction using database according to the first or second request received And a step of outputting the audio data speech synthesis was based on the character selected in the response data and the selection receiving unit, to function so as to execute the process.
本開示の別実施形態に従う端末プログラムは、本体内に設けられ、追記可能に構成され、選択可能な複数のキャラクタにそれぞれ対応して設けられ、当該キャラクタ毎に第1の要求に対する応答処理に用いられる応答データが保存された複数の基本辞書を含む第1のデータベースと、外部装置に設けられ、複数のキャラクタに関連付けられ、選択されたキャラクタに対応する基本辞書の代わりに第2の要求に対する応答処理に用いられる応答データが保存された追加辞書を含む第2のデータベースを利用する端末のコンピュータに実行させるための端末プログラムであって、端末プログラムは、コンピュータに、ユーザからの第1あるいは第2の要求を受け付けるステップと、キャラクタの選択を受け付けるステップと、受け付けた要求に従って応答処理を実行するステップとを備える処理を実行させるように機能させる。応答処理を実行するステップは、第1の要求を受け付けた場合に、選択されたキャラクタに対応して設けられた第1のデータベースの基本辞書を利用して応答データを抽出するステップと、第2の要求を受け付けた場合に、選択されたキャラクタに関連付けられた第2のデータベースの追加辞書を利用して抽出された応答データを取得するステップと、抽出あるいは取得された応答データと選択されたキャラクタとに基づいて音声合成するステップと、音声合成した音声データを出力するステップとを含む。 A terminal program according to another embodiment of the present disclosure is provided in the main body, is configured to be additionally writable, is provided corresponding to each of a plurality of selectable characters, and is used for response processing to the first request for each character. A first database including a plurality of basic dictionaries in which response data is stored, and a response to the second request instead of the basic dictionary corresponding to the selected character provided in the external device and associated with the plurality of characters A terminal program for causing a computer of a terminal that uses a second database including an additional dictionary in which response data used for processing is stored to be executed by the computer. In accordance with the received request, the step of receiving the selection of the character, the step of receiving the selection of the character, Function is to so as to execute a process comprising the step of performing a response process Te. The step of executing the response process includes a step of extracting response data using the basic dictionary of the first database provided corresponding to the selected character when the first request is received; The response data extracted using the additional dictionary of the second database associated with the selected character when the request is received, the response data extracted or acquired and the selected character And synthesizing speech based on the above and outputting speech synthesized speech data.
本開示の別実施形態に従う端末プログラムは、外部装置に設けられ、選択可能な複数のキャラクタにそれぞれ対応して設けられ、当該キャラクタ毎に第1の要求に対する応答処理に用いられる応答データが保存された複数の基本辞書を含む第1のデータベースと、本体内に設けられ、複数のキャラクタに関連付けられ、選択されたキャラクタに対応する基本辞書の代わりに第2の要求に対する応答処理に用いられる応答データが保存された追加辞書を含む第2のデータベースを利用する端末のコンピュータに実行させるための端末プログラムであって、端末プログラムは、コンピュータに、ユーザからの第1あるいは第2の要求を受け付けるステップと、キャラクタの選択を受け付けるステップと、受け付けた要求に従って応答処理を実行するステップとを備える、処理を実行させるように機能させる。応答処理を実行するステップは、第1の要求を受け付けた場合に、選択されたキャラクタに対応して設けられた第1のデータベースの基本辞書を利用して応答データを取得するステップと、第2の要求を受け付けた場合に、選択されたキャラクタに関連付けられた第2のデータベースの追加辞書を利用して応答データを抽出するステップと、抽出あるいは取得された応答データと選択受付手段で選択されたキャラクタとに基づいて音声合成するステップと、音声合成した音声データを出力するステップとを含む。 A terminal program according to another embodiment of the present disclosure is provided in an external device, provided corresponding to each of a plurality of selectable characters, and response data used for response processing to the first request is stored for each character. A first database including a plurality of basic dictionaries and response data provided in the main body, associated with the plurality of characters, and used for response processing to the second request instead of the basic dictionary corresponding to the selected character Is a terminal program for causing a computer of a terminal that uses the second database including the additional dictionary stored therein to receive the first or second request from the user to the computer; , Receiving the character selection, and executing response processing according to the received request And a step to function so as to execute the process. The step of executing the response process includes a step of acquiring response data using a basic dictionary of the first database provided corresponding to the selected character when the first request is received, The response data is extracted using the additional dictionary of the second database associated with the selected character, and the response data extracted or acquired and selected by the selection receiving means Voice synthesis based on the character, and outputting voice synthesized voice data.
本開示の別実施形態に従う端末プログラムは、本体内に設けられ、追記可能に構成され、選択可能な複数のキャラクタにそれぞれ対応して設けられ、当該キャラクタ毎に第1の要求に対する応答処理に用いられる応答データが保存された複数の基本辞書と、複数のキャラクタに関連付けられ、選択されたキャラクタに対応する基本辞書の代わりに第2の要求に対する応答処理に用いられる応答データが保存された追加辞書とを含むデータベースを利用する端末のコンピュータに実行させるための端末プログラムであって、端末プログラムは、コンピュータに、ユーザからの第1あるいは第2の要求を受け付けるステップと、キャラクタの選択を受け付けるステップと、受け付けた要求に従って応答処理を実行するステップとを備える、処理を実行させるように機能させる。応答処理を実行するステップは、第1の要求を受け付けた場合に、選択されたキャラクタに対応して設けられた第1のデータベースの基本辞書を利用して応答データを抽出するステップと、第2の要求を受け付けた場合に、選択されたキャラクタに関連付けられた第2のデータベースの追加辞書を利用して応答データを抽出するステップと、抽出された応答データと選択されたキャラクタとに基づいて音声合成するステップと、音声合成した音声データを出力するステップとを含む。 A terminal program according to another embodiment of the present disclosure is provided in the main body, is configured to be additionally writable, is provided corresponding to each of a plurality of selectable characters, and is used for response processing to the first request for each character. A plurality of basic dictionaries in which response data is stored, and an additional dictionary in which response data stored in response processing for the second request is stored in place of the basic dictionary associated with the plurality of characters and corresponding to the selected character A terminal program for causing a computer of a terminal that uses a database including: a terminal program to accept a first or second request from a user to a computer; and a step of accepting selection of a character. And executing a response process in accordance with the received request. To function so as to line. The step of executing the response process includes a step of extracting response data using the basic dictionary of the first database provided corresponding to the selected character when the first request is received; The response data is extracted using the additional dictionary of the second database associated with the selected character, and the voice is generated based on the extracted response data and the selected character. A step of synthesizing, and a step of outputting the synthesized voice data.
本開示の一実施形態に従う音声データ出力装置は、追記可能に構成されるデータベースを利用する音声データ出力装置であって、ユーザからの要求を受け付ける受付手段と、キャラクタの選択を受け付ける選択受付手段と、受付手段で受け付けた要求に従って応答処理を実行する応答実行手段とを備える。データベースは、選択可能な複数のキャラクタにそれぞれ対応して設けられ、当該キャラクタ毎に応答データが保存された複数の基本辞書を含む。音声データ出力装置は、選択されたキャラクタに対応する基本辞書の代わりに用いられる応答データが保存された追加辞書を受け付ける追加辞書受付部と、追加辞書受付部の追加辞書の受け付けに従って、当該追加辞書とともに複数のキャラクタと追加辞書との対応関係を表す対応テーブルをデータベースに登録する登録部とをさらに備える。応答実行手段は、受け付けた要求が第1の要求である場合に、選択されたキャラクタに対応して設けられた基本辞書を利用して応答データを抽出する第1抽出手段と、受け付けた要求が第2の要求である場合に、対応テーブルを参照して、選択されたキャラクタに対応する追加辞書を利用して応答データを抽出する第2抽出手段と、抽出した応答データと、選択されたキャラクタとに基づいて音声合成する音声合成手段と、音声合成した音声データを出力する出力手段とを含む。 An audio data output device according to an embodiment of the present disclosure is an audio data output device that uses a database configured to be additionally writable, and includes a reception unit that receives a request from a user, and a selection reception unit that receives a selection of a character. Response executing means for executing response processing in accordance with the request received by the receiving means. The database includes a plurality of basic dictionaries that are respectively provided corresponding to a plurality of selectable characters and in which response data is stored for each character. The voice data output device includes an additional dictionary receiving unit that receives an additional dictionary in which response data used instead of the basic dictionary corresponding to the selected character is stored, and the additional dictionary according to the reception of the additional dictionary of the additional dictionary receiving unit And a registration unit for registering a correspondence table representing a correspondence relationship between the plurality of characters and the additional dictionary in the database. When the received request is the first request, the response execution means includes a first extraction means for extracting response data using a basic dictionary provided corresponding to the selected character, and the received request is In the case of the second request, with reference to the correspondence table, second extraction means for extracting response data using an additional dictionary corresponding to the selected character, the extracted response data, and the selected character Voice synthesis means for synthesizing speech based on the above and output means for outputting voice data synthesized by voice synthesis.
この開示の上記および他の目的、特徴、局面および利点は、添付の図面と関連して理解されるこの開示に関する次の詳細な説明から明らかとなるであろう。 The above and other objects, features, aspects and advantages of this disclosure will become apparent from the following detailed description of this disclosure, which is to be understood in connection with the accompanying drawings.
キャラクタ毎に辞書を設ける必要がなく、簡易な方式で辞書を更新することが可能である。 It is not necessary to provide a dictionary for each character, and the dictionary can be updated by a simple method.
実施形態について、以下、図面を参照しながら説明する。実施形態の説明において、個数および量などに言及する場合、特に記載がある場合を除き、本発明の範囲は必ずしもその個数およびその量などに限定されない。実施形態の説明において、同一の部品および相当部品に対しては、同一の参照番号を付し、重複する説明は繰り返さない場合がある。特に制限が無い限り、実施形態に示す構成に示す構成を適宜組み合わせて用いることは、当初から予定されていることである。 Hereinafter, embodiments will be described with reference to the drawings. In the description of the embodiments, when referring to the number and amount, the scope of the present invention is not necessarily limited to the number and amount unless otherwise specified. In the description of the embodiments, the same parts and corresponding parts are denoted by the same reference numerals, and redundant description may not be repeated. Unless there is a restriction | limiting in particular, it is planned from the beginning to use suitably the structure shown in the structure shown to embodiment.
<実施形態1>
(音声出力システム1の構成)
図1は、実施形態1に基づく音声出力システム1について説明する図である。
<
(Configuration of audio output system 1)
FIG. 1 is a diagram illustrating an
図1を参照して、実施形態1に基づく音声出力システム1は、掃除ロボット100、ネットワーク5、外部装置50、サーバ300とにより構成されている。
With reference to FIG. 1, the
掃除ロボット100は、ネットワーク5を介してサーバ300と通信可能に設けられている。なお、本例においては、ネットワーク5を介してサーバ300と通信する場合について説明するが、直接、サーバ300と通信する方式としてもよい。
The cleaning
音声出力システム1は、音声データ出力装置の一例として掃除ロボット100から人間(ユーザ)に対して音声が出力され、これに対して掃除ロボット100に人間(ユーザ)が発した音声が入力されると、サーバ300において音声認識されて、入力された音声に対する応答内容を表す音声(以降では、「音声応答」とも記載)を、掃除ロボット100から出力する。当該処理を繰り返すことにより、実施形態1に基づく音声出力システム1は、ユーザと、掃除ロボット100との疑似的な会話を実現する。
As an example of the audio data output device, the
なお、実施形態1では、音声データ出力装置の一例として、音声を認識してユーザに対して音声応答を出力する掃除ロボット100を例に挙げて説明するが、本発明はこれに限定されるものではない。例えば、対話機能を有する人形や、掃除ロボット100以外の家電機器(例えば、テレビ、電子レンジなど)、携帯電話機、スマートフォン、タブレット端末、パーソナルコンピュータその他の情報処理端末あるいは、電子ピアノその他の電子楽器、自動車その他の機器によって実現することも可能である。
In the first embodiment, as an example of the voice data output device, a
また、実施形態では、サーバ300が1つのサーバによって実現される構成を例に挙げて説明するが、本発明はこれに限定されるものではなく、サーバ300の備える各部(各機能)の少なくとも一部を、他のサーバにより実現する構成を採用してもよい。
In the embodiment, a configuration in which the
本例において、サーバ300は、外部装置50と連携して後述する所定の機能を実行することが可能である。例えばサーバ300は、外部装置50にアクセスして天気予報に関する情報を取得し、取得した情報に基づく応答処理を実行することが可能である。
In this example, the
(音声出力システム1のハードウェア)
図2は、実施形態1に基づく掃除ロボット100のハードウェア構成の概要を表わすブロック図である。
(Hardware of audio output system 1)
FIG. 2 is a block diagram illustrating an outline of a hardware configuration of the
図2に示されるように掃除ロボット100は、CPU(Central Processing Unit)610と、一時記憶部620と、記憶部630と、通信部640と、入力部650と、出力部660とを備える。
As shown in FIG. 2, the cleaning
CPU610は、制御部として、命令を実行し、掃除ロボット100の動作を制御する。
As a control unit,
一時記憶部620は、CPU610によって生成されたデータ、記憶部630から読みだされたデータなどを一時的に保持する。一時記憶部620は、たとえばRAM(Random Access Memory)その他の揮発性のデータ記憶媒体によって実現される。
The
記憶部630は、CPU610によって生成されたデータ、予め格納されたデータおよびプログラムなどを保持する。記憶部630は、たとえばハードディスク装置、フラッシュメモリその他の不揮発性のデータ記録媒体によって実現される。
The
通信部640は、ネットワーク5と接続され、サーバ300と通信する。なお、携帯電話、スマートフォンその他の情報通信端末と通信することも可能である。通信部640は、たとえば、無線通信、有線通信のいずれによっても実現される。通信部640による通信の態様は特に限られず、パケット通信、赤外線通信、Bluetooth(登録商標)、NFC(Near Field Communication)等によって実現される。
The
入力部650は、たとえば、マイクで実現される。具体的には、外部から音の入力を受け付ける。なお、マイクが入力を受け付ける音を示す音データには、主に人間の発する音声の周波数帯域に含まれる音のデータ(音声データとも称する)の入力を受け付ける場合について説明するが、音声データの周波数帯域以外の周波数帯域を含む音のデータが含まれていてもよい。マイクは、入力された音を示す音声データを、CPU610に出力する。音データから音声データを検出する方法としては、例えば、音データから人間の発する音声の周波数帯域(例えば、100Hz以上かつ1kHz以下の周波数帯域)を抽出することによって音声データを検出する方法を挙げることができる。この場合には、入力部650は、音データから人間の発する音声の周波数帯域を抽出するために、例えば、バンドパスフィルタ、又は、ハイパスフィルタ及びローパスフィルタを組み合わせたフィルタなどを備えていればよい。
The
なお、入力部650は、たとえば、キーボード、マウスその他のポインティングデバイス、信号入力端子、赤外線受光部等を含み得る。
Note that the
出力部660は、たとえば、スピーカで実現される。具体的には、外部に対して出力される応答内容を表す音声信号を再生する。なお、出力部660は、たとえば、液晶モニタ、有機EL(Electro Luminescence)モニタ、LED外部出力インターフェイスを含みうる。
The
駆動部670は、掃除ロボット100が移動する車輪および車輪を駆動するモータであ。なお、たとえば、掃除ロボット100とは別の機器である場合には、駆動部670は、通信回路、バイブレータ、車輪、コンプレッサ、画像処理プロセッサなどを含み得る。
The driving
掃除部680は、ブラシや吸引ポンプ等で構成される。
なお、上記構成は、必ずしも必須の構成ではなく、たとえば掃除部680等、機器に応じて機能を追加あるいは削除することも可能である。
The
In addition, the said structure is not necessarily essential structure, For example, it is also possible to add or delete a function according to apparatuses, such as the
図3は、実施形態1に基づくサーバ300のハードウェア構成の概要を表わすブロック図である。
FIG. 3 is a block diagram showing an outline of the hardware configuration of the
図3に示されるようにサーバ300は、CPU510と、一時記憶部520と、記憶部530と、通信部540と、入力部550と、出力部560とを備える。
As illustrated in FIG. 3, the
CPU510は、制御部として、命令を実行し、サーバ300の動作を制御する。
一時記憶部520は、CPU510によって生成されたデータ、記憶部530から読みだされたデータ、サーバ300に対して与えられたデータなどを一時的に保持する。一時記憶部520は、たとえばRAM(Random Access Memory)その他の揮発性のデータ記憶媒体によって実現される。
As a control unit,
記憶部530は、CPU510によって生成されたデータ、サーバ300に対して与えられたデータ、サーバ300に所定の動作を実行させるために予め格納されたデータおよびプログラムなどを保持する。記憶部530は、たとえばハードディスク装置、フラッシュメモリその他の不揮発性のデータ記録媒体によって実現される。
The
通信部540は、ネットワーク5と接続され掃除ロボット100と通信する。通信部540は、たとえば、無線通信、有線通信のいずれによっても実現される。通信部540による通信の態様は特に限られず、パケット通信、赤外線通信、Bluetooth(登録商標)、NFC(Near Field Communication)等によって実現される。
入力部550は、サーバ300に対する命令または文字その他の情報の入力を受け付ける。入力部550は、たとえば、キーボード、マウスその他のポインティングデバイス、信号入力端子、赤外線受光部等を含み得る。
The
出力部560は、サーバ300において生成されたデータ、CPU510によって検索された結果などを出力する。出力部560は、たとえば、液晶モニタ、有機EL(Electro Luminescence)モニタ、LED外部出力インターフェイスなどによって実現される。
The
(応答処理概要)
図4は、実施形態1に基づく音声出力システム1における応答処理の流れを説明するシーケンス図である。
(Response processing overview)
FIG. 4 is a sequence diagram illustrating the flow of response processing in the
図4に示されるように、ユーザは、掃除ロボット100に対して発話(ユーザ発話とも称する)する(シーケンスsq0)。 As shown in FIG. 4, the user utters (also referred to as user utterance) to cleaning robot 100 (sequence sq0).
掃除ロボット100は、ユーザ発話に対して音声の入力を受け付ける(シーケンスsq1)。具体的には、掃除ロボット100は、マイクを介して外部からの音の入力を受け付ける。
次に、掃除ロボット100は、音声データをサーバ300に出力する(シーケンスsq2)。具体的には、受け付けた音声データを通信部640を介してサーバ300に出力する。
Next, cleaning
次に、サーバ300は、掃除ロボット100から送信された音声データを受信して音声認識を実行する(シーケンスsq3)。具体的には、通信部540を介して音声データを受信する。そして、受信した音声データの音声内容を認識する。そして、サーバ300は、認識した音声内容に基づいて応答処理を実行する(シーケンスsq4)。
Next,
次に、サーバ300は、応答処理の結果として音声合成により生成した音声データを掃除ロボット100に送信する(シーケンスsq5)。具体的には、通信部540を介して音声データを掃除ロボット100に送信する。
Next,
次に、掃除ロボット100は、サーバ300から受信した音声データの出力処理を実行する(シーケンスsq6)。具体的には、通信部640を介してサーバ300からの音声データを受信する。
Next, cleaning
掃除ロボット100は、音声データに基づいて音声を再生する(シーケンスsq7)。
具体的には、スピーカを介して音声信号を再生する。
Specifically, an audio signal is reproduced through a speaker.
当該処理により、ユーザが発話した内容に従って応答処理し、応答内容を示す音声をユーザに出力することが可能となる。 By this process, it is possible to perform a response process according to the content uttered by the user and to output a voice indicating the response content to the user.
なお、本例においては、一例として音声認識処理および音声合成処理についてサーバ300側で実行する方式について説明するが、特にこれに限られず、音声認識処理および音声合成処理を掃除ロボット100側で実行するようにしても良いし、一方を掃除ロボット100側、他方をサーバ300側で実行するようにしても良い。以下の構成についても同様である。
In this example, a method of executing the voice recognition process and the voice synthesis process on the
次に、サーバ300の具体的構成について説明する。
(サーバ300の機能ブロック図)
図5は、実施形態1に基づくサーバ300の機能を説明するブロック図である。
Next, a specific configuration of the
(Functional block diagram of server 300)
FIG. 5 is a block diagram illustrating functions of the
図5に示されるように、サーバ300は、キャラクタ選択入力受付部400と、キャラクタ設定部402と、応答実行部404と、音声入力受信部414と、音声認識部416と、目覚まし実行部418と、データベース(DB)531とを含む。
As shown in FIG. 5, the
キャラクタ選択入力受付部400は、ユーザからのキャラクタの選択入力の指示を受け付ける。本例においては、ユーザ発話に対する応答処理による音声再生として、予め設けられた複数のキャラクタの音声を選択して再生することが可能に設けられている。
The character selection
ここで「キャラクタ」とは、音声の有する性格を意味するものであり、特徴的又は個性的な口調、役柄、声色又はこれらの組み合わせにより特有の性格を有するものである。例えば、口調に癖があり関西弁で発声する場合等である。また、キャラクタは人に限らず動物等やこれらを擬人化したものでもよい。例えば、犬の鳴き声等であってもよいし、犬を擬人化して人間の言葉を発するものとしてもよいし、既存のアニメ−ションキャラクタ等であってもよい。 Here, the “character” means a character possessed by speech, and has a unique character by a characteristic or individual tone, character, voice color, or a combination thereof. For example, there is a habit in the tone and the voice is spoken in the Kansai dialect. Further, the character is not limited to a person but may be an animal or the like, or anthropomorphized person. For example, it may be a cry of a dog, an anthropomorphic dog that utters human words, or an existing animation character.
たとえば、掃除ロボット100の入力部650に設けられる所定キーの操作に従って複数のキャラクタの選択指示が実行され、当該選択指示が通信部640を介してサーバ300に送信される。サーバ300は、通信部540を介して当該選択指示を受信してキャラクタ選択入力受付部400でキャラクタの選択指示を受け付ける。本例においては、選択可能な4つのキャラクタA〜Dが設けられている場合について説明する。
For example, a plurality of character selection instructions are executed in accordance with an operation of a predetermined key provided on the
キャラクタ設定部402は、選択指示されたキャラクタに設定する。当該キャラクタの設定により音声合成における音素パターンが切り替えられる。音素パターンには、声の大きさ、発声速度、音量、高域強調、抑揚等の発声音声に関するデータも含まれる。当該キャラクタの設定に従ってキャラクタに応じた音声データを生成する。
The
音声入力受信部414は、通信部540を介して掃除ロボット100から入力された音声データを受信する。そして、応答実行部404に受信した音声データを出力する。
The voice
応答実行部404は、受信した音声データに応じた応答処理を実行する。
具体的には、応答実行部404は、音声認識部416と、第1抽出部406と、第2抽出部408と、音声合成部410と、データ出力部412とを含む。
The
Specifically, the
音声認識部416は、音声入力受信部414によって受信した音声データの示す音声の内容(音声内容)を認識内容(認識フレーズ)として認識する。
The
第1抽出部406は、取得した認識フレーズに基づいて、データベース531に格納されている標準会話機能辞書群532の対応するキャラクタの基本辞書を参照して、音声データの示す音声内容に対応する応答内容(応答情報)を選択(決定)する。
The
第2抽出部408は、取得した認識フレーズに基づいて、データベース531に格納されている標準会話機能辞書群532以外の他の辞書群の辞書を参照して、音声データの示す音声内容に対応する応答内容(応答情報)を選択(決定)する。
Based on the acquired recognition phrase, the
第1抽出部406および第2抽出部408のいずれにおいても、記憶部530に格納されているデータベース531を参照して、辞書を用いて音声データに対する認識フレーズを取得できなかった場合には音声認識は失敗と判断して、応答処理を終了する。
In any of the
音声合成部410は、選択された応答内容と、設定されているキャラクタの音素パターンとに基づいて音声合成して音声データを生成する。
The
データ出力部412は、生成した音声データを通信部540を介して掃除ロボット100に送信する。掃除ロボット100は、通信部640を介して当該音声データを受信して、出力部660から音声を再生して出力する。
The
目覚まし実行部418は、目覚まし機能が有効に設定されている場合に、予め設定した時刻に通知処理を実行するように指示する。具体的には、目覚まし実行部418は、時刻管理機能を有しており、設定された時刻となった場合に通知処理の指示を応答実行部404に出力する。
The
機能辞書群受付部440は、データベース531に追記する新たな機能を追加する際の応答処理を実行するための辞書群を受け付ける。ここで、受け付ける機能辞書群は、後述する抽象キャラクタに対応する辞書である。
The function dictionary
追加基本辞書受付部450は、データベース531に追記する基本辞書を受け付ける。ここで、受け付ける基本辞書は、後述する新規のキャラクタに対応して追加する辞書である。
The additional basic
登録部442は、機能辞書群受付部440で受け付けた機能辞書群をデータベース531に追記する。登録部442は、追加基本辞書受付部450で受け付けた基本辞書をデータベース531に追記する。具体的には、登録部442は、新規のキャラクタに対応する基本辞書を追加する際には、データベースに登録されている抽象キャラクタと当該新規のキャラクタとを関連付けて登録する。
The
(データベース構成)
図6は、実施形態1に基づくデータベース531の構成を説明する図である。
(Database configuration)
FIG. 6 is a diagram illustrating the configuration of the
図6に示されるように、データベース531は、記憶部530に格納されるとともに、追記可能に構成されている。
As shown in FIG. 6, the
データベース531は、各機能毎に応答処理を実行するための辞書が格納される。
本例においては、データベース531は、標準会話の応答処理を実行するための標準会話機能辞書群532を含む。当該標準会話機能辞書群532には、時計の応答処理(時計機能)を実行するための辞書も含まれている。
The
In this example, the
データベース531は、さらに、天気予報の応答処理(天気予報機能)を実行するための天気予報機能辞書群534と、目覚まし(アラーム)の応答処理(目覚まし機能)を実行するための目覚まし機能辞書群538とを有する。
The
天気予報機能辞書群534は、抽象キャラクタX追加辞書534Aと、抽象キャラクタY追加辞書534Bとを含む。
The weather forecast
目覚まし機能辞書群538は、抽象キャラクタX追加辞書538Aと、抽象キャラクタY追加辞書538Bとを含む。
The alarm
また、データベース531には、登録部442により生成された複数のキャラクタと抽象キャラクタとの関連付けを示す対応テーブル539が設けられる。対応テーブル539には、キャラクタA,Bと抽象キャラクタXとが対応付けられて登録されている。キャラクタC,Dと抽象キャラクタYとが対応付けられて登録されている。
Further, the
なお、新規のキャラクタが追加される場合には、登録部422によりキャラクタの関連付けを示す新たな対応テーブルが生成される。抽象キャラクタと新規のキャラクタとが関連付けられた対応テーブルが生成される。 When a new character is added, the registration unit 422 generates a new correspondence table indicating the character association. A correspondence table in which the abstract character and the new character are associated with each other is generated.
本例においては、一例として天気予報機能を実行するための天気予報機能辞書群534と、目覚まし機能を実行するための目覚まし機能辞書群538とは、データベース531に新たに追記したものである。具体的には、天気予報機能辞書群534および目覚まし機能辞書群538は、機能辞書群受付部440で受け付けられて、登録部442によりデータベース531に格納される。
In this example, a weather forecast
サーバ300に当該新たな辞書群を追加することにより、種々の音声出力パターンを追加し機能を拡張することが可能となる。
By adding the new dictionary group to the
ここで、標準会話機能辞書群532は、キャラクタA基本辞書532Aと、キャラクタB基本辞書532Bと、キャラクタC基本辞書532Cと、キャラクタD基本辞書532Dとを含む。
Here, the standard conversation
すなわち、標準会話のために予め4つのキャラクタ用の基本辞書が設けられている。
したがって、一般的には、機能を拡張(追加)する際にも予め設けられている4つのキャラクタ用の基本辞書に合わせて、それぞれのキャラクタ毎の新たな追加辞書を設ける必要が生じる。
In other words, four basic dictionaries for characters are provided in advance for standard conversation.
Therefore, in general, when expanding (adding) a function, it is necessary to provide a new additional dictionary for each character in accordance with the four basic character dictionaries provided in advance.
一方で、全てのキャラクタに合わせた追加辞書を作成することは、機能を追加する側の負荷を強いることになり、キャラクタ数が多い場合には処理が煩雑になる。 On the other hand, creating an additional dictionary tailored to all characters imposes a load on the side of adding a function, and the process becomes complicated when the number of characters is large.
したがって、本例においては、全てのキャラクタにそれぞれ合わせた追加辞書を作成して追記するのではなく、複数のキャラクタから類似したキャラクタ同士の共通の特徴を残して固有の特徴を排した抽象的なキャラクタを定義し、その抽象的なキャラクタ(抽象キャラクタとも称する)用の追加辞書(テキストデータ)を作成する。 Therefore, in this example, instead of creating and adding additional dictionaries tailored to each character, an abstract that excludes unique features while leaving common features of similar characters from multiple characters. A character is defined, and an additional dictionary (text data) for the abstract character (also called an abstract character) is created.
例えば、キャラクタAおよびキャラクタBから、「です」、「ます」等の共通の一般的な丁寧口調を残して、固有の特徴的な口調を排した抽象キャラクタXを定義する。 For example, the character A and the character B are defined as an abstract character X that leaves a common general polite tone such as “is”, “masu”, etc., and excludes a unique characteristic tone.
また、キャラクタCおよびキャラクタDから、共通の一般的な友達口調を残して、固有の特徴的な口調を排した抽象キャラクタYを定義する。 Further, an abstract character Y is defined from the character C and the character D, leaving a common general friend tone and excluding a unique characteristic tone.
そして、丁寧口調の抽象キャラクタXの追加辞書と、友達口調のキャラクタYの追加辞書を作成する。 Then, an additional dictionary of polite tone abstract characters X and an additional dictionary of friend tone characters Y are created.
そして、「です」、「ます」等の丁寧な口調で会話するキャラクタAおよびキャラクタBと丁寧口調の抽象キャラクタXとを関連付ける。 Then, the character A and the character B talking in a polite tone such as “is” or “mas” are associated with the polite tone abstract character X.
また、「だよん」等の友達口調のキャラクタCとキャラクタDと友達口調の抽象キャラクタYとを関連付ける。 Also, the friend tone character C and character D such as “Dayon” are associated with the friend tone abstract character Y.
本例においては、機能を拡張(追加)して、当該機能を利用する場合には、抽象キャラクタXあるいは抽象キャラクタYの追加辞書を利用して、設定されているキャラクタの音素パターンを用いて音声合成により音声データを生成する。 In this example, when the function is expanded (added) and the function is used, an additional dictionary of the abstract character X or abstract character Y is used to generate a sound using the set phoneme pattern of the character. Audio data is generated by synthesis.
たとえば、ユーザがキャラクタAあるいはBを設定している場合に、抽象キャラクタXの追加辞書を利用してキャラクタAあるいはBの音素パターンと音声合成する。追加辞書は丁寧な口調として定義されているため丁寧な口調で会話するキャラクタAあるいはBで音声合成により作成された音声データは違和感を生じさせることなく自然な会話を維持することが可能である。 For example, when the user has set character A or B, voice synthesis is performed with the phoneme pattern of character A or B using the additional dictionary of abstract character X. Since the additional dictionary is defined as a polite tone, the voice data created by voice synthesis with the character A or B talking in a polite tone can maintain a natural conversation without causing a sense of incongruity.
また、ユーザがキャラクタCあるいはDを設定している場合に、抽象キャラクタYの追加辞書を利用してキャラクタCあるいはDの音素パターンと音声合成する。追加辞書は友達口調として定義されているため友達口調で会話するキャラクタCあるいはDで音声合成により作成された音声データ違和感を生じさせることなく自然な会話を維持することが可能である。 Further, when the user has set the character C or D, voice synthesis is performed with the phoneme pattern of the character C or D using the additional dictionary of the abstract character Y. Since the additional dictionary is defined as a friend tone, it is possible to maintain a natural conversation without causing a sense of incongruity in voice data created by voice synthesis with the character C or D talking in a friend tone.
なお、本例においては、2つの抽象キャラクタ、丁寧口調の抽象キャラクタと、友達口調の抽象キャラクタを設ける場合について説明したが、これに限られず、たとえば、男性口調の抽象キャラクタや、女性口調の抽象キャラクタを定義して、追加辞書を作成するようにしても良い。なお、本例においては一例として口調により抽象キャラクタを定義する場合について説明したが、特に口調に限られず、別に定義することも当然に可能である。 In this example, two abstract characters, a polite tone abstract character, and a friend tone abstract character have been described. However, the present invention is not limited to this. For example, a male tone abstract character and a woman tone abstract character are provided. An additional dictionary may be created by defining a character. In this example, the case where an abstract character is defined by tone is described as an example. However, the present invention is not limited to tone, and can be defined separately.
当該方式により、例えば、新たに機能を追加する場合、全てのキャラクタにそれぞれ合わせた追加辞書を作成して追記するのではなく、抽象的なキャラクタを定義して複数のキャラクタと関連付けて当該抽象キャラクタの辞書を利用することにより、機能を追加して辞書を作成する側の負荷を軽減することが可能である。また、追加する辞書数を減らすことができ管理しやすく、また、辞書を記憶させる容量を小さくすることも可能である。 For example, when a new function is added by this method, instead of creating and adding an additional dictionary for each character, an abstract character is defined and associated with a plurality of characters. By using this dictionary, it is possible to reduce the load on the side of creating a dictionary by adding functions. Further, the number of dictionaries to be added can be reduced and management is easy, and the capacity for storing dictionaries can be reduced.
また、新規のキャラクタ(たとえばキャラクタE)を作成する場合には、基本辞書のみを追加する。データベース531には、登録部442により新規のキャラクタEと抽象キャラクタとが関連付けられた対応テーブル539が生成される。例えば、新規のキャラクタEが丁寧な口調で会話するキャラクタであれば抽象キャラクタXと関連付けられて登録される。これにより、キャラクタを作成する場合に全ての機能に対応する辞書を追加する必要はなく、例えば標準会話の応答処理を実行するための辞書を作成すれば、他の機能については抽象キャラクタの辞書を用いることにより自然な会話を維持しつつ応答処理することが可能である。したがって、新規のキャラクタに対応する基本辞書を作成する側の負荷を軽減することが可能である。
Further, when creating a new character (for example, character E), only the basic dictionary is added. In the
図7は、実施形態1に基づくデータベース531の具体例について説明する図である。
データベース531は、一例として実施形態に基づくサーバ300の備える記憶部530に格納されている。
FIG. 7 is a diagram illustrating a specific example of the
As an example, the
図7(A)においては、標準会話機能辞書群532の各キャラクタ毎に設けられている基本辞書から認識フレーズ「おはよう」、「今何時?」に対する応答処理を整理したテーブルが示されている。データベース531は、応答処理の内容としてテキストデータが格納される。
FIG. 7A shows a table in which the response processes for the recognition phrases “Good morning” and “What time is it?” Are arranged from the basic dictionary provided for each character in the standard conversation
認識フレーズ「おはよう」を認識した場合には、キャラクタ毎に回答フレーズが異なる。一例として、キャラクタAの場合には、「おはようございます、いい朝ですね」を応答内容として決定する。キャラクタBの場合には、「おはようございます」を応答内容として決定する。キャラクタCの場合には、「おはよー」を応答内容として決定する。キャラクタDの場合には、「おっはー」を応答内容として決定する。 When the recognition phrase “good morning” is recognized, the answer phrase is different for each character. As an example, in the case of character A, “Good morning, good morning” is determined as the response content. In the case of the character B, “Good morning” is determined as the response content. In the case of the character C, “Ohayo” is determined as the response content. In the case of the character D, “Oh-ha” is determined as the response content.
なお、認識フレーズ「おはよう」を認識した場合のコマンドは「なし」に設定されている。したがって、通常の標準会話となる。 The command when the recognition phrase “good morning” is recognized is set to “none”. Therefore, it becomes a normal standard conversation.
別の例として認識フレーズ「今何時?」を認識した場合には、キャラクタ毎に回答フレーズが異なる。一例として、キャラクタAの場合には、「・・・」「ですよ」を応答内容として決定する。ここで、「・・・」の部分は、コマンドにより取得した情報が挿入される。具体的には、認識フレーズ「今何時?」を認識した場合のコマンドは「時刻取得」に設定されている。したがって、現在時刻が取得される。そして、たとえば、「8時」が取得された場合には、「8時ですよ」を応答内容として決定する。 As another example, when the recognition phrase “What time is it now?” Is recognized, the answer phrase is different for each character. As an example, in the case of the character A, “... Here, information acquired by a command is inserted into the portion of “...”. Specifically, the command when the recognition phrase “what time is it now” is set to “acquire time”. Therefore, the current time is acquired. For example, when “8 o'clock” is acquired, “8 o'clock is good” is determined as the response content.
キャラクタBの場合には、「・・・」「でございます」を応答内容として決定する。ここで、「・・・」の部分は、コマンドにより取得した情報が挿入される。具体的には、認識フレーズ「今何時?」を認識した場合のコマンドは「時刻取得」に設定されている。したがって、現在時刻が取得される。そして、たとえば、「8時」が取得された場合には、「8時でございます」を応答内容として決定する。 In the case of the character B, “... Here, information acquired by a command is inserted into the portion of “...”. Specifically, the command when the recognition phrase “what time is it now” is set to “acquire time”. Therefore, the current time is acquired. For example, when “8 o'clock” is acquired, “It is 8 o'clock” is determined as the response content.
キャラクタCの場合には、「・・・」「だよん」を応答内容として決定する。ここで、「・・・」の部分は、コマンドにより取得した情報が挿入される。具体的には、認識フレーズ「今何時?」を認識した場合のコマンドは「時刻取得」に設定されている。したがって、現在時刻が取得される。そして、たとえば、「8時」が取得された場合には、「8時だよん」を応答内容として決定する。 In the case of the character C, “...” And “Dayon” are determined as response contents. Here, information acquired by a command is inserted into the portion of “...”. Specifically, the command when the recognition phrase “what time is it now” is set to “acquire time”. Therefore, the current time is acquired. For example, when “8 o'clock” is acquired, “8 o'clock” is determined as the response content.
キャラクタDの場合には、「・・・」「だワン」を応答内容として決定する。ここで、「・・・」の部分は、コマンドにより取得した情報が挿入される。具体的には、認識フレーズ「今何時?」を認識した場合のコマンドは「時刻取得」に設定されている。したがって、現在時刻が取得される。そして、たとえば、「8時」が取得された場合には、「8時だワン」を応答内容として決定する。 In the case of the character D, “...” And “DA ONE” are determined as response contents. Here, information acquired by a command is inserted into the portion of “...”. Specifically, the command when the recognition phrase “what time is it now” is set to “acquire time”. Therefore, the current time is acquired. For example, if “8 o'clock” is acquired, “8 o'clock is one” is determined as the response content.
図7(B)においては、目覚まし機能辞書群538、天気予報機能辞書群534に設けられている抽象キャラクタ追加辞書から認識フレーズに対する応答処理を整理したテーブルが示されている。
FIG. 7B shows a table in which the response processing for the recognition phrase is organized from the abstract character addition dictionaries provided in the alarm
認識フレーズ「今日の天気は?」を認識した場合について説明する。
認識フレーズ「今日の天気は?」を認識した場合には、キャラクタ毎に回答フレーズが異なる。一例として、抽象キャラクタXの場合には、「・・・」「の予報です」を応答内容として決定する。ここで、「・・・」の部分は、コマンドにより取得した情報が挿入される。具体的には、認識フレーズ「今日の天気は?」を認識した場合のコマンドは「天気情報取得」に設定されている。したがって、天気情報が取得される。そして、たとえば、「晴れ」が取得された場合には、「晴れの予報です」を応答内容として決定する。
A case where the recognition phrase “What is the weather today?” Will be described.
When the recognition phrase “How is the weather today?” Is recognized, the answer phrase is different for each character. As an example, in the case of the abstract character X, “...” and “This is a forecast” are determined as response contents. Here, information acquired by a command is inserted into the portion of “...”. Specifically, the command for recognizing the recognition phrase “What is the weather today?” Is set to “Acquire Weather Information”. Therefore, weather information is acquired. For example, if “sunny” is acquired, “sunny forecast” is determined as the response content.
抽象キャラクタYの場合には、「・・・」「そうだよ」を応答内容として決定する。ここで、「・・・」の部分は、コマンドにより取得した情報が挿入される。具体的には、認識フレーズ「今日の天気は?」を認識した場合のコマンドは「天気情報取得」に設定されている。したがって、現在時刻が取得される。そして、たとえば、「晴れ」が取得された場合には、「晴れそうだよ」を応答内容として決定する。 In the case of the abstract character Y, “...” And “Yes” are determined as response contents. Here, information acquired by a command is inserted into the portion of “...”. Specifically, the command for recognizing the recognition phrase “What is the weather today?” Is set to “Acquire Weather Information”. Therefore, the current time is acquired. Then, for example, when “sunny” is acquired, “sounds likely” is determined as the response content.
上記したように、キャラクタ毎に辞書を作成するのではなく、複数のキャラクタと関連付けられる抽象キャラクタの辞書を作成して利用することにより辞書を作成する側の負荷を軽減することができる。 As described above, instead of creating a dictionary for each character, it is possible to reduce the load on the side of creating the dictionary by creating and using a dictionary of abstract characters associated with a plurality of characters.
本例においては、2つずつのキャラクタに対応する抽象キャラクタが定義されるため辞書数は半減する。 In this example, the number of dictionaries is halved because abstract characters corresponding to two characters are defined.
次に、認識フレーズ「(目覚まし)」を認識する場合について説明する。当該機能は、ユーザからの発話に対する応答処理ではなく、設定した所定時刻に自動で目覚まし機能(コマンド)を実行する応答処理である。 Next, the case where the recognition phrase “(alarm)” is recognized will be described. This function is not a response process to a user's utterance, but a response process that automatically executes a wake-up function (command) at a set predetermined time.
具体的には、認識フレーズ「(目覚まし)」は、ユーザからの発話として目覚ましを認識したものと仮定して応答処理を実行する。具体的には、目覚まし実行部418からの指示があった場合に認識フレーズ「(目覚まし)」を認識したものと判断する。
Specifically, the recognition phrase “(alarm)” executes response processing on the assumption that the alarm is recognized as an utterance from the user. Specifically, it is determined that the recognition phrase “(alarm)” has been recognized when there is an instruction from the
認識フレーズ「(目覚まし)」を認識した場合には、キャラクタ毎に回答フレーズが異なる。一例として、抽象キャラクタXの場合には、「朝です、起きてください」を応答内容として決定する。抽象キャラクタYの場合には、「朝だよ、起きて」を応答内容として決定する。 When the recognition phrase “(alarm)” is recognized, the answer phrase is different for each character. As an example, in the case of the abstract character X, “Morning, please wake up” is determined as the response content. In the case of the abstract character Y, “It's morning, get up” is determined as the response content.
上記したように、キャラクタ毎に辞書を作成するのではなく、複数のキャラクタと関連付けられる抽象キャラクタの辞書を作成して利用することにより辞書を作成する側の負荷を軽減することができる。 As described above, instead of creating a dictionary for each character, it is possible to reduce the load on the side of creating the dictionary by creating and using a dictionary of abstract characters associated with a plurality of characters.
本例においては、2つずつのキャラクタに対応する抽象キャラクタが定義されるため辞書数は半減する。 In this example, the number of dictionaries is halved because abstract characters corresponding to two characters are defined.
したがって、例えばサーバに対して新たな機能を追加するベンダー側としては、抽象キャラクタが定義されている場合には、当該抽象キャラクタに対する辞書を作成することにより、全てのキャラクタ毎の辞書を作成する必要が無く、辞書の作成の負担を軽減することが可能である。 Therefore, for example, as a vendor who adds a new function to the server, when an abstract character is defined, it is necessary to create a dictionary for every character by creating a dictionary for the abstract character. It is possible to reduce the burden of creating a dictionary.
また、抽象キャラクタに限らず、通常のキャラクタを追加する場合においても辞書の作成の負担を軽減することが可能である。 Further, not only an abstract character but also a normal character can be added to reduce the burden of creating a dictionary.
例えば、通常のキャラクタを追加する際に、基本辞書に全ての機能に対応する回答フレーズを作成する必要はない。具体的には、既に追加されている機能については、キャラクタと関連付けられる抽象キャラクタの追加辞書を利用することが可能であるため、例えば、標準会話の応答処理に関する辞書を作成すればよい。これにより、通常のキャラクタを追加する際にも辞書の作成の負担を軽減することが可能である。 For example, when adding a normal character, it is not necessary to create answer phrases corresponding to all functions in the basic dictionary. Specifically, for functions that have already been added, it is possible to use an additional dictionary of abstract characters associated with the character, so for example, a dictionary relating to standard conversation response processing may be created. This can reduce the burden of creating a dictionary even when adding a normal character.
また、新たに機能を追加(インストール)する際に、全てのキャラクタにそれぞれ合わせた追加辞書を作成して追記するのではなく、例えば、抽象的なキャラクタX、Yに対応する辞書のみ作成すれば、違和感の無い自然な会話を維持することが可能であるため、機能を追加して辞書を作成する側の負荷を軽減することが可能である。 Also, when adding (installing) new functions, instead of creating and adding additional dictionaries for each character, for example, only creating dictionaries corresponding to abstract characters X and Y Since it is possible to maintain a natural conversation with no sense of incongruity, it is possible to reduce the load on the side of creating a dictionary by adding functions.
(フロー図)
図8は、実施形態1に基づくサーバ300のフローを説明する図である。
(Flow diagram)
FIG. 8 is a diagram illustrating the flow of the
図8に示されるように、音声データを受信したか否かを判断する(ステップS1)。具体的には、音声入力受信部414は、音声データを受信する。
As shown in FIG. 8, it is determined whether audio data has been received (step S1). Specifically, the voice
ステップS1において、音声データを受信したと判断した場合(ステップS1においてYES)には、次に、音声認識を実行する(ステップS2)。具体的には、音声認識部416は、音声入力受信部414から受信した音声データに従って認識フレーズを取得する。
If it is determined in step S1 that voice data has been received (YES in step S1), then voice recognition is executed (step S2). Specifically, the
次に、キャラクタを確認する(ステップS3)。具体的には、第1抽出部406は、キャラクタ設定部402で設定されたキャラクタを確認する。
Next, the character is confirmed (step S3). Specifically, the
次に、基本辞書を設定する(ステップS4)。第1抽出部406は、設定されたキャラクタに対応する基本辞書を設定する。例えば、キャラクタAが設定されている場合には、キャラクタA基本辞書532Aが設定される。
Next, a basic dictionary is set (step S4). The
次に、基本辞書に認識フレーズがあるかどうかを判断する(ステップS5)。第1抽出部406は、設定された基本辞書に認識フレーズが含まれるか否かを判断する。例えば、キャラクタA基本辞書532Aに認識フレーズが含まれるか否かを判断する。
Next, it is determined whether or not there is a recognition phrase in the basic dictionary (step S5). The
ステップS5において、設定された基本辞書に認識フレーズがあると判断した場合(ステップS5においてYES)には、回答フレーズを決定する(ステップS6)。第1抽出部406は、設定された基本辞書から回答フレーズを決定する。
If it is determined in step S5 that there is a recognition phrase in the set basic dictionary (YES in step S5), an answer phrase is determined (step S6). The
次に、音声合成する(ステップS7)。具体的には、音声合成部410は、決定された回答フレーズと、設定されているキャラクタの音素パターンとに基づいて音声合成して音声データを生成する。
Next, speech synthesis is performed (step S7). Specifically, the
次に、出力する(ステップS7#)。具体的には、データ出力部412は、音声合成部410で生成された音声データを通信部540を介して掃除ロボット100に出力する。
Next, it outputs (step S7 #). Specifically, the
そして、処理を終了する(エンド)。
これにより、掃除ロボット100は、サーバ300で生成された音声データを受信して、再生出力する。
Then, the process ends (END).
As a result, the cleaning
一方、ステップS5において、基本辞書に認識フレーズが無いと判断した場合(ステップS5においてNO)には、抽象キャラクタを設定する(ステップS8)。具体的には、第2抽出部408は、キャラクタ設定部402で設定されたキャラクタに関連付けられた抽象キャラクタを設定する。例えば、キャラクタAが設定されている場合には、抽象キャラクタXが設定される。
On the other hand, if it is determined in step S5 that there is no recognition phrase in the basic dictionary (NO in step S5), an abstract character is set (step S8). Specifically, the
次に、追加辞書を設定する(ステップS9)。具体的には、第2抽出部408は、設定された抽象キャラクタに対応する追加辞書を設定する。例えば、抽象キャラクタXが設定されている場合には、抽象キャラクタX追加辞書を設定する。
Next, an additional dictionary is set (step S9). Specifically, the
次に、追加辞書に認識フレーズがあるかどうかを判断する(ステップS10)。具体的には、第2抽出部408は、抽象キャラクタX追加辞書534Aに認識フレーズがあるか否かを判断する。
Next, it is determined whether there is a recognition phrase in the additional dictionary (step S10). Specifically, the
追加辞書に認識フレーズがあると判断した場合(ステップS10においてYES)には、コマンドがあるかどうかを判断する(ステップS11)。第2抽出部408は、抽象キャラクタX追加辞書534Aに認識フレーズがあると判断した場合に、当該認識フレーズに対応するコマンドがあるか否かを判断する。例えば、認識フレーズ「今日の天気は?」の場合には、コマンドは「天気情報取得」が対応付けられているためコマンドがあると判断される。
If it is determined that there is a recognition phrase in the additional dictionary (YES in step S10), it is determined whether there is a command (step S11). When the
ステップS11において、コマンドがあると判断した場合(ステップS11においてYES)には、コマンドを実行する(ステップS12)。第2抽出部408は、認識フレーズ「今日の天気は?」に対応してコマンド「天気情報取得」があると判断した場合には、天気情報を取得する。具体的には、当該コマンドに従って外部装置50にアクセスして天気予報に関する情報を取得する。
If it is determined in step S11 that there is a command (YES in step S11), the command is executed (step S12). When the
そして、回答フレーズを決定する(ステップS6)。第2抽出部408は、コマンド実行により取得した天気予報に関する情報に基づいて回答フレーズを決定する。例えば、「晴れの予報です」を決定する
次に、音声合成する(ステップS7)。具体的には、音声合成部410は、決定された回答フレーズと、設定されているキャラクタの音素パターンとに基づいて音声合成して音声データを生成する。例えばキャラクタAが設定されている場合には、キャラクタAの音素パターンと「晴れの予報です」の回答フレーズとに基づいて音声データを生成する。
Then, an answer phrase is determined (step S6). The
次に、出力する(ステップS7#)。具体的には、データ出力部412は、音声合成部410で生成された音声データを通信部540を介して掃除ロボット100に出力する。
Next, it outputs (step S7 #). Specifically, the
そして、処理を終了する(エンド)。
一方、ステップS11において、コマンドが無いと判断した場合(ステップS11においてNO)には、コマンドを実行することなく、回答フレーズを決定する(ステップS6)。第2抽出部408は、抽象キャラクタ追加辞書から回答フレーズを決定する。
Then, the process ends (END).
On the other hand, if it is determined in step S11 that there is no command (NO in step S11), an answer phrase is determined without executing the command (step S6). The
次に、音声合成する(ステップS7)。具体的には、音声合成部410は、決定された回答フレーズと、設定されているキャラクタの音素パターンとに基づいて音声合成して音声データを生成する。例えばキャラクタAが設定されている場合には、キャラクタAの音素パターンと回答フレーズとに基づいて音声データを生成する。
Next, speech synthesis is performed (step S7). Specifically, the
次に、出力する(ステップS7#)。具体的には、データ出力部412は、音声合成部410で生成された音声データを通信部540を介して掃除ロボット100に出力する。
Next, it outputs (step S7 #). Specifically, the
そして、処理を終了する(エンド)。
一方、ステップS10において、追加辞書に認識フレーズが無いと判断した場合(ステップS10においてNO)には、他の追加辞書があるかどうかを判断する(ステップS13)。第2抽出部408は、設定された抽象キャラクタX追加辞書534Aに認識フレーズが無いと判断した場合には、他の追加辞書があるかどうかを判断する。
Then, the process ends (END).
On the other hand, if it is determined in step S10 that there is no recognition phrase in the additional dictionary (NO in step S10), it is determined whether there is another additional dictionary (step S13). When the
ステップS13において、他の追加辞書があると判断した場合(ステップS13においてYES)には、ステップS9に戻る。第2抽出部408は、他の追加辞書があると判断した場合には、他の追加辞書を設定する。そして、上記の処理を繰り返す。
If it is determined in step S13 that there is another additional dictionary (YES in step S13), the process returns to step S9. If the
一方、ステップS13において、他の追加辞書が無いと判断した場合(ステップS13においてNO)には、認識フレーズに対する応答処理を終了する(エンド)。 On the other hand, if it is determined in step S13 that there is no other additional dictionary (NO in step S13), the response process for the recognized phrase is ended (END).
なお、目覚まし実行部418は、設定した所定時刻に仮想的に「(目覚まし)」の音声データを応答実行部404に出力する。これにより、音声認識部416で音声認識され、以降上記の処理により回答フレーズが決定される。
The
<実施形態2>
上記実施形態においては、まず、第1抽出部406で基本辞書を設定して、基本辞書に認識フレーズが無いと判断された場合に第2抽出部408で追加辞書を設定して認識フレーズがあるか否かを判断する方式について説明したが、特にこれに限られず、順番を入れ替えて先に第2抽出部408で抽象キャラクタに対応する追加辞書を設定して認識フレーズがあるか否かを判断し、認識フレーズが無いと判断された場合に第1抽出部406で基本辞書を設定して、基本辞書に認識フレーズがあるか否かを判断するようにしても良い。
<
In the above embodiment, first, a basic dictionary is set by the
追加機能を頻繁に利用する場合には、第1抽出部406よりも先に第2抽出部408で処理することにより高速に追加した機能の処理を実行することが可能である。
When the additional function is frequently used, it is possible to execute processing of the function added at high speed by processing the
<実施形態3>
また、上記実施形態においては、第1抽出部406および第2抽出部408を連続的に処理する場合について説明したが、特にこれに限られず第1抽出部406および第2抽出部408における処理を並列的に実行するようにしても良い。
<
In the above embodiment, the case where the
また、選択可能な複数のモードを設けて、いずれか1つを実行するようにしても良い。 具体的には、モード毎に処理を切り替えても良い。例えば、基本辞書のみを利用する基本モードや、追加辞書のみを利用する拡張モード、追加辞書の中の特定の辞書のみ利用する特定モード等を設けて、指定されたモードに従って第1抽出部406を用いた基本辞書による応答処理あるいは、第2抽出部408を用いた追加辞書による応答処理を切り替えて実行することも可能である。
Also, a plurality of selectable modes may be provided and any one of them may be executed. Specifically, the processing may be switched for each mode. For example, a basic mode that uses only the basic dictionary, an expansion mode that uses only the additional dictionary, a specific mode that uses only a specific dictionary in the additional dictionary, and the like are provided, and the
<実施形態4>
(実施形態4に基づく音声出力システムの機能ブロック図)
図9は、実施形態4に基づく音声出力システムの機能を説明するブロック図である。
<
(Functional block diagram of audio output system based on Embodiment 4)
FIG. 9 is a block diagram illustrating functions of the audio output system based on the fourth embodiment.
図9に示されるように、掃除ロボット100を掃除ロボット110に置換し、サーバ300をサーバ310に置換した点が異なる。
As shown in FIG. 9, the cleaning
具体的には、掃除ロボット110は、CPU611と、データベース631とを含む。
CPU611は、キャラクタ選択入力受付部200と、音声入力受付部214と、キャラクタ設定部202と、応答実行部204と、目覚まし実行部218とを含む。
Specifically, the cleaning
応答実行部204は、抽出部206と、取得部208と、音声認識部216と、音声合成部210と、データ出力部212とを含む。
The
サーバ310は、CPU511と、データベース531Aとを含む。
CPU511は、データ抽出部420と、データ出力部430とを含む。
The CPU 511 includes a
なお、ここでは省略しているが実施形態1で説明した機能辞書群受付部440、追加基本辞書受付部450および登録部442をさらに設ける構成としても良い。
Although omitted here, the functional dictionary
実施形態4の構成は、実施形態1で説明したサーバ300で備えている主な機能を掃除ロボット110が有している構成である。
The configuration of the fourth embodiment is a configuration in which the
本例におけるデータベース631は、図6で説明した標準会話機能辞書群532を備える。また、本例におけるデータベース531Aは、図6で説明した目覚まし機能辞書群538と、天気予報機能辞書群534とを含む。
The
具体的には、標準会話機能については、データベース631を利用し、追加機能については、データベース531を利用する形態である。
Specifically, the
キャラクタ選択入力受付部200、キャラクタ設定部202、音声入力受付部214、目覚まし実行部218、抽出部206、音声認識部216、音声合成部210、データ出力部212は、キャラクタ選択入力受付部400、キャラクタ設定部402、音声入力受信部414、目覚まし実行部418、第1抽出部406、音声認識部416、音声合成部410、データ出力部412と基本的に同様でありその詳細な説明は繰り返さない。
Character selection
取得部208は、音声認識部216で認識した認識フレーズに基づいて、サーバ310に格納されているデータベース531Aに格納されている追加辞書群の辞書を参照して、音声データの示す音声内容に対応する応答内容(応答情報)を取得する。
The
(応答処理概要)
図10は、実施形態4に基づく音声出力システム1Aにおける応答処理の流れを説明するシーケンス図である。
(Response processing overview)
FIG. 10 is a sequence diagram illustrating the flow of response processing in the audio output system 1A based on the fourth embodiment.
図10に示されるように、ユーザは、掃除ロボット110に対して発話(ユーザ発話とも称する)する(シーケンスsq10)。 As shown in FIG. 10, the user utters (also referred to as user utterance) to cleaning robot 110 (sequence sq10).
掃除ロボット110は、ユーザ発話に対して音声の入力を受け付ける(シーケンスsq11)。具体的には、入力部650は、マイクを介して外部からの音の入力を受け付ける。音声入力受付部214は、入力部650から音声入力を受け付けて、応答実行部204に出力する。
次に、掃除ロボット110の応答実行部204は、音声認識を実行する(シーケンスsq12)。具体的には、音声認識部216は、音声入力受付部214からの音声内容を認識する。
Next, the
次に、本例においては、掃除ロボット110の抽出部206は、データベース631の標準会話機能辞書群に認識フレーズに対応する辞書が無いと判断する(シーケンスsq13)。
Next, in this example, the
次に、掃除ロボット110の取得部208は、サーバ310にデータを送信する(シーケンスsq14)。当該データには、認識した音声内容とともに設定されているキャラクタに関する情報が含まれる。
Next,
サーバ310は、掃除ロボット110から送信されたデータに基づいて応答処理する(シーケンスsq15)。具体的には、データ抽出部420は、送信されたデータに対してデータベース531Aを参照して、音声内容に対応する応答内容(応答情報)を抽出する。
データ抽出部420の処理は、実施形態1で説明した第2抽出部408と同様の処理を実行する。
The
次に、サーバ310は、抽出した応答内容のデータを掃除ロボット110に送信する(シーケンスsq16)。具体的には、データ出力部430は、通信部540を介して応答内容のデータを掃除ロボット110に送信する。
Next,
次に、掃除ロボット110は、サーバ300から受信したデータの出力処理を実行する(シーケンスsq17)。具体的には、取得部208は、サーバから送信された応答内容のデータを取得して、音声合成部210に出力する。音声合成部210は、受信した応答内容に含まれる回答フレーズおよび設定されているキャラクタとに基づいて音声合成して音声データを生成する。
Next, cleaning
掃除ロボット100は、音声データに基づいて音声を再生する(シーケンスsq18)。具体的には、スピーカを介して音声信号を再生する。当該処理により、ユーザが発話した内容に従って応答処理し、応答内容を示す音声をユーザに出力することが可能となる。
なお、本例においては、掃除ロボット110の抽出部206において、データベース631の標準会話機能辞書群に認識フレーズに対応する辞書が無いと判断した場合について説明した。
In this example, a case has been described in which the
一方で、データベース631の標準会話機能辞書群に認識フレーズに対応する辞書があると判断した場合には、サーバ310にアクセスすることなく、抽出部206においてデータベース631を参照して回答フレーズを抽出する。そして、回答フレーズと設定されているキャラクタとに基づいて音声合成して音声データを生成する。そして、音声データに基づいて音声を再生する。
On the other hand, when it is determined that there is a dictionary corresponding to the recognized phrase in the standard conversation function dictionary group of the
当該構成において、基本辞書を掃除ロボット110のデータベース631に格納し、追加辞書をサーバ310のデータベース531Aに格納することにより、掃除ロボット110における基本辞書を用いた対話の速度を高速にすることが可能である。
In this configuration, by storing the basic dictionary in the
また、追加辞書をサーバ310側に持たせることにより掃除ロボット110側の記憶容量の制約を考慮する必要がなく追加辞書を容易に追加することが可能である。
Further, by providing the additional dictionary on the
<実施形態5>
上記の実施形態4においては、標準会話機能辞書群を掃除ロボット110側に設けて、サーバ310側に追加辞書群を設ける構成について説明した。一方で、当該構成を逆にして、掃除ロボット110側に追加辞書群を設けて、サーバ310側に標準会話機能辞書群を設けた構成とすることも可能である。
<
In the fourth embodiment, the configuration in which the standard conversation function dictionary group is provided on the
データベースの配置が異なるのみで処理は同様である。
当該構成により、掃除ロボット110における追加辞書を用いた追加機能における対話の速度を高速にすることが可能である。
The process is the same except for the arrangement of the database.
With this configuration, it is possible to increase the speed of dialogue in the additional function using the additional dictionary in the
<実施形態6>
上記の構成においては、掃除ロボットとサーバとが連携して処理する構成について説明したが、サーバと連携することなく掃除ロボットのみで処理させることも可能である。
<Embodiment 6>
In the above configuration, the configuration in which the cleaning robot and the server process in cooperation has been described. However, the cleaning robot and the server can perform the processing only with no cooperation with the server.
具体的には、図5で説明したサーバ300の構成を掃除ロボット100に含めることにより実現することが可能である。当該構成により、掃除ロボット100に全ての辞書を設ける構成により標準会話および追加機能における対話の速度をとも高速にすることが可能である。
Specifically, it can be realized by including the configuration of the
<実施形態7>
図11は、実施形態7に基づくサーバの構成について説明する図である。
<Embodiment 7>
FIG. 11 is a diagram illustrating a configuration of a server based on the seventh embodiment.
図11を参照して、本例においては、サーバが複数設けられている場合が示されている。 Referring to FIG. 11, in this example, a case where a plurality of servers are provided is shown.
本例においては、一例としてサーバ300Aと、サーバ300Bとが設けられている場合が示されている。
In this example, a case where a
上記の実施形態1の構成においては、音声認識と音声認識に対する回答フレーズ(応答態様)とを決定する処理とを同じサーバで実行する場合について説明したが、一方で、当該処理をそれぞれ独立のサーバで実行することも可能である。 In the configuration of the first embodiment, the case where the voice recognition and the process for determining the answer phrase (response mode) for the voice recognition are executed by the same server has been described. It is also possible to execute with.
具体的には、サーバ300Aにおいて音声データに対する音声認識を実行し、サーバ300Bにおいて回答フレーズデータを掃除ロボット100に出力する構成としてもよい。
Specifically, the
例えば、掃除ロボット100から音声データをサーバ300Aに送信する(1)。サーバ300Aが音声データの音声認識を実行する(2)。そして、サーバ300Aが掃除ロボット100に対して認識フレーズを送信する(3)。
For example, audio data is transmitted from the cleaning
掃除ロボット100がサーバ300Aから認識フレーズを受信して、別のサーバ300Bに当該認識フレーズを送信する(4)。
The cleaning
サーバ300Bは、掃除ロボット100から認識フレーズを受信して、当該認識フレーズに対応する回答フレーズを決定する(5)。そして、サーバ300Bは、掃除ロボットに対して回答フレーズを送信する(6)。
The
なお、本例においては、サーバ300Aが音声データの音声認識を実行した認識フレーズを掃除ロボット100に対して送信する場合について説明したが、認識フレーズに限られず音声認識の結果を示す情報であればどのようなものでも良い。例えば、サーバ300Bに格納されている回答フレーズにアクセスするために必要なアクセス情報(URL(Uniform Resource Locator)等)であってもよい。例えば、当該アクセス情報(URL)を掃除ロボット100は、サーバ300Aから受信して、サーバ300Bにアクセスすることにより回答フレーズをサーバ300Bから取得する構成としてもよい。また、アクセス情報に限られず、サーバ300Bに格納されている回答フレーズがファイル形式で保存されている場合には、サーバ300Aからの音声認識の結果を示す情報として、ファイル名を指定する情報であってもよい。例えば、当該ファイル名を掃除ロボット100は、サーバ300Aから受信して、サーバ300Bに対してファイル名を指定して情報を要求することにより、回答フレーズに関連するファイルをサーバ300Bから取得することが可能である。
In addition, in this example, although the case where the
また、同様に、サーバ300Aからの音声認識の結果を示す情報として、認識フレーズをテキスト化したテキスト情報を送信するようにしてもよい。掃除ロボット100は、当該テキスト情報から認識フレーズを抽出して、サーバ300Bにアクセスして回答フレーズを取得するようにしてもよいし、当該テキスト情報をサーバ300Bに送信して、サーバ300Bで認識フレーズを含むテキスト情報を解析して、解析結果に基づいて回答フレーズを決定して、掃除ロボット100に送信する構成としてもよい。
Similarly, text information obtained by converting a recognition phrase into text may be transmitted as information indicating the result of speech recognition from the
また、本例においては、サーバ300で音声認識する場合について説明したが、掃除ロボット100で音声認識し、その結果に対する回答フレーズを掃除ロボット100内で決定して、回答フレーズをサーバ300Bから取得するようにしてもよい。その場合、認識フレーズに対するサーバ300Bの回答フレーズにアクセスするアクセス情報(URL)が対応付けられたURL対応テーブルを記憶部630に設けることにより実現することが可能である。
Moreover, in this example, although the case where the speech recognition was performed by the
また、掃除ロボット100内に保存されている情報を利用して音声認識の結果に対する回答フレーズを取得することも可能である。
It is also possible to acquire an answer phrase for the result of voice recognition using information stored in the
例えば、一時的に情報を格納することが可能なキャッシュメモリに以前に利用された認識フレーズに対する回答フレーズの情報が含まれている場合には、当該キャッシュメモリに格納されている回答フレーズの情報を利用することにより、例えば、サーバにアクセスすることなく回答フレーズを取得して掃除ロボット100から発話(応答処理)することも可能である。これによりキャッシュメモリに格納されている情報を利用して早期に発話することが可能である。
For example, when the cache memory capable of temporarily storing information includes information on the answer phrase for the previously used recognition phrase, the answer phrase information stored in the cache memory is By using it, for example, it is possible to acquire an answer phrase without accessing the server and utter (response process) from the cleaning
実施形態7のサーバの構成については、上記の実施形態1〜6のいずれにも適用可能である。 The server configuration of the seventh embodiment can be applied to any of the first to sixth embodiments.
<実施形態8>
掃除ロボット及びサーバ等の制御ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
<
Control blocks such as a cleaning robot and a server may be realized by a logic circuit (hardware) formed in an integrated circuit (IC chip) or by software using a CPU (Central Processing Unit). Good.
後者の場合、掃除ロボット及びサーバは、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。 In the latter case, the cleaning robot and the server include a CPU that executes instructions of a program that is software that realizes each function, and a ROM (Read Only Memory) in which the program and various data are recorded so as to be readable by the computer (or CPU). Alternatively, a storage device (these are referred to as “recording media”), a RAM (Random Access Memory) that expands the program, and the like are provided. And the objective of this invention is achieved when a computer (or CPU) reads the said program from the said recording medium and runs it. As the recording medium, a “non-temporary tangible medium” such as a tape, a disk, a card, a semiconductor memory, a programmable logic circuit, or the like can be used. The program may be supplied to the computer via an arbitrary transmission medium (such as a communication network or a broadcast wave) that can transmit the program. The present invention can also be realized in the form of a data signal embedded in a carrier wave in which the program is embodied by electronic transmission.
今回開示された実施形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。 It should be thought that embodiment disclosed this time is an illustration and restrictive at no points. The scope of the present invention is defined by the terms of the claims, rather than the description above, and is intended to include any modifications within the scope and meaning equivalent to the terms of the claims.
1,1A 音声出力システム、5 ネットワーク、50 外部装置、100,110 掃除ロボット、200,400 キャラクタ選択入力受付部、202,402 キャラクタ設定部、204,404 応答実行部、206 抽出部、208 取得部、210,410 音声合成部、212,412,430 データ出力部、214 音声入力受付部、216,416 音声認識部、218,418 目覚まし実行部、300,300A,300B,310 サーバ、406 第1抽出部、408 第2抽出部、414 音声入力受信部、420 データ抽出部、440 機能辞書群受付部、450 追加基本辞書受付部、531,531A,631 データベース、520,620 一時記憶部、530,630 記憶部、532 標準会話機能辞書群、532A,532B,532C,532D 基本辞書、534 天気予報機能辞書群、534A,534B,538A,538B 追加辞書、538 目覚まし機能辞書群、539 対応テーブル、540,640 通信部、550,650 入力部、560,660 出力部、670 駆動部、680 掃除部。 1, 1A voice output system, 5 network, 50 external device, 100, 110 cleaning robot, 200, 400 character selection input reception unit, 202, 402 character setting unit, 204, 404 response execution unit, 206 extraction unit, 208 acquisition unit , 210, 410 Speech synthesis unit, 212, 412, 430 Data output unit, 214 Speech input reception unit, 216, 416 Speech recognition unit, 218, 418 Alarm execution unit, 300, 300A, 300B, 310 server, 406 First extraction Unit, 408 second extraction unit, 414 voice input reception unit, 420 data extraction unit, 440 functional dictionary group reception unit, 450 additional basic dictionary reception unit, 531, 531A, 631 database, 520, 620 temporary storage unit, 530, 630 Storage unit, 532 standard conversation function dictionary group, 32A, 532B, 532C, 532D Basic dictionary, 534 Weather forecast function dictionary group, 534A, 534B, 538A, 538B Additional dictionary, 538 Alarm function dictionary group, 539 Corresponding table, 540, 640 Communication unit, 550, 650 Input unit, 560 , 660 output unit, 670 drive unit, 680 cleaning unit.
Claims (17)
選択可能な複数のキャラクタにそれぞれ対応して設けられ、当該キャラクタ毎に第1の要求に対する応答処理に用いられる応答データが保存された複数の基本辞書と、
前記複数のキャラクタに関連付けられ、選択されたキャラクタに対応する基本辞書の代わりに第2の要求に対する応答処理に用いられる前記応答データが保存された追加辞書とを含む、サーバ。 A server that is used for response processing to a request from a user and is configured to be additionally writable,
A plurality of basic dictionaries provided corresponding to a plurality of selectable characters, each storing response data used for response processing to the first request for each character;
A server including an additional dictionary in which the response data stored in response to the second request is stored instead of the basic dictionary corresponding to the selected character and associated with the selected character.
ユーザからの要求を受け付けるステップと、
キャラクタの選択を受け付けるステップと、
前記受け付けた要求に従って応答処理を実行するステップとを備え、
前記応答処理を実行するステップは、
前記受け付けた要求が第1の要求である場合に、選択されたキャラクタに対応して設けられた基本辞書を利用して応答データを抽出するステップと、
前記受け付けた要求が第2の要求である場合に、選択されたキャラクタに関連付けられた追加辞書を利用して応答データを抽出するステップと、
抽出した応答データと、選択されたキャラクタとに基づいて音声合成するステップと、 音声合成した音声データを出力するステップとを含む、データベースを利用する方法。 It is configured to be appendable, provided corresponding to each of a plurality of selectable characters, a plurality of basic dictionaries storing response data for each character, and associated with the plurality of characters, corresponding to the selected character Using a database including an additional dictionary storing the response data used instead of the basic dictionary,
Receiving a request from a user;
Receiving a character selection;
Executing a response process in accordance with the accepted request,
The step of executing the response process includes:
Extracting the response data using a basic dictionary provided corresponding to the selected character when the received request is the first request;
If the request received is the second request, and extracting the response data using the associated with the selected character added dictionary,
A method of using a database, comprising: synthesizing speech based on extracted response data and a selected character; and outputting speech synthesized speech data.
前記プログラムは、前記コンピュータに、
ユーザからの要求を受け付けるステップと、
キャラクタの選択を受け付けるステップと、
前記受け付けた要求に従って応答処理を実行するステップとを備え、
前記応答処理を実行するステップは、
前記受け付けた要求が第1の要求である場合に、選択されたキャラクタに対応して設けられた基本辞書を利用して応答データを抽出するステップと、
前記受け付けた要求が第2の要求である場合に、選択されたキャラクタに関連付けられた追加辞書を利用して応答データを抽出するステップと、
抽出した応答データと、選択されたキャラクタとに基づいて音声合成するステップと、
音声合成した音声データを出力するステップとを含む、処理を実行させるように機能させるデータベースを利用するプログラム。 It is configured to be appendable, provided corresponding to each of a plurality of selectable characters, a plurality of basic dictionaries storing response data for each character, and associated with the plurality of characters, corresponding to the selected character A program for causing a computer using a database including an additional dictionary in which the response data is used in place of the basic dictionary to be executed,
The program is stored in the computer.
Receiving a request from a user;
Receiving a character selection;
Executing a response process in accordance with the accepted request,
The step of executing the response process includes:
Extracting the response data using a basic dictionary provided corresponding to the selected character when the received request is the first request;
If the request received is the second request, and extracting the response data using the association et OF FURTHER dictionary to the selected character,
Synthesizing speech based on the extracted response data and the selected character;
A program that utilizes a database that functions to execute processing, including the step of outputting voice data that has been synthesized.
ユーザからの要求を受け付ける受付手段と、
キャラクタの選択を受け付ける選択受付手段と、
前記受付手段で受け付けた要求に従って応答処理を実行する応答実行手段とを備え、
前記データベースは、
選択可能な複数のキャラクタにそれぞれ対応して設けられ、当該キャラクタ毎に応答データが保存された複数の基本辞書と、
前記複数のキャラクタに関連付けられ、選択されたキャラクタに対応する基本辞書の代わりに用いられる前記応答データが保存された追加辞書とを含み、
前記応答実行手段は、
前記受け付けた要求が第1の要求である場合に、選択されたキャラクタに対応して設けられた基本辞書を利用して応答データを抽出する第1抽出手段と、
前記受け付けた要求が第2の要求である場合に、選択されたキャラクタに関連付けられた追加辞書を利用して応答データを抽出する第2抽出手段と、
抽出した応答データと、選択されたキャラクタとに基づいて音声合成する音声合成手段と、
音声合成した音声データを出力する出力手段とを含む、データベースを利用するシステム。 A system that uses a database that can be appended to,
A receiving means for receiving a request from a user;
Selection accepting means for accepting selection of a character;
Response executing means for executing response processing in accordance with the request received by the receiving means,
The database is
A plurality of basic dictionaries provided corresponding to each of a plurality of selectable characters and storing response data for each character;
An additional dictionary in which the response data is stored in association with the plurality of characters and used instead of the basic dictionary corresponding to the selected character;
The response execution means includes
First extraction means for extracting response data using a basic dictionary provided corresponding to the selected character when the received request is a first request;
If the request received is the second request, a second extraction means for extracting the response data using the association et OF FURTHER dictionary to the selected character,
Speech synthesis means for performing speech synthesis based on the extracted response data and the selected character;
A system using a database, including output means for outputting voice data synthesized by voice synthesis.
ユーザからの要求を受け付けるステップと、
キャラクタの選択を受け付けるステップと、
前記受け付けた要求に従って応答処理を実行するステップとを備え、
前記応答処理を実行するステップは、
前記受け付けた要求が第1の要求である場合に、選択されたキャラクタに対応して設けられた前記第1のデータベースの基本辞書を利用して応答データを抽出するステップと、
前記受け付けた要求が第2の要求である場合に、選択されたキャラクタに関連付けられた前記第2のデータベースの追加辞書を利用して応答データを抽出するステップと、
抽出した応答データと、選択されたキャラクタとに基づいて音声合成するステップと、
音声合成した音声データを出力するステップとを含む、データベースを利用する方法。 A first database including a plurality of basic dictionaries configured to be additionally writable and provided corresponding to a plurality of selectable characters and storing response data for each character, and associated with the plurality of characters, A method using a second database including an additional dictionary in which the response data used instead of the basic dictionary corresponding to the selected character is stored,
Receiving a request from a user;
Receiving a character selection;
Executing a response process in accordance with the accepted request,
The step of executing the response process includes:
Extracting the response data using the basic dictionary of the first database provided corresponding to the selected character when the received request is the first request;
If the accepted request is a second request, extracting the reply data using the additional dictionary of the second database was association et al to the selected character,
Synthesizing speech based on the extracted response data and the selected character;
A method of using a database, comprising: outputting speech synthesized speech data.
ユーザからの第1あるいは第2の要求を受け付ける受付手段と、
キャラクタの選択を受け付ける選択受付手段と、
前記受付手段で受け付けた第1あるいは第2の要求に応じて前記データベースを利用して抽出された応答データと前記選択受付手段で選択されたキャラクタとに基づいて音声合成された音声データを出力する出力手段とを備える、端末。 A plurality of basic dictionaries provided in an external device, configured to be additionally writable, provided corresponding to a plurality of selectable characters, and storing response data used for response processing to the first request for each character And a terminal using a database associated with the plurality of characters and including an additional dictionary storing the response data used for response processing to the second request instead of the basic dictionary corresponding to the selected character There,
Accepting means for accepting a first or second request from a user;
Selection accepting means for accepting selection of a character;
Output speech data synthesized by speech based on response data extracted using the database in response to the first or second request received by the receiving means and the character selected by the selection receiving means. And a terminal.
ユーザからの第1あるいは第2の要求を受け付ける受付手段と、
キャラクタの選択を受け付ける選択受付手段と、
前記受付手段で受け付けた要求に従って応答処理を実行する応答実行手段とを備え、
前記応答実行手段は、
前記受付手段で第1の要求を受け付けた場合に、選択されたキャラクタに対応して設けられた前記第1のデータベースの基本辞書を利用して応答データを抽出する抽出手段と、
前記受付手段で第2の要求を受け付けた場合に、選択されたキャラクタに関連付けられた前記第2のデータベースの追加辞書を利用して抽出された応答データを取得する取得手段と、
抽出あるいは取得された応答データと前記選択受付手段で選択されたキャラクタとに基づいて音声合成する音声合成手段と、
音声合成した音声データを出力する出力手段とを含む、端末。 A plurality of basic dictionaries provided in the main body, configured to be additionally writable, provided corresponding to a plurality of selectable characters, and storing response data used for response processing to the first request for each character And the response data used in response processing to the second request instead of the basic dictionary associated with the plurality of characters and associated with the selected character is stored in the first database including A terminal that uses the second database including the additional dictionary,
Accepting means for accepting a first or second request from a user;
Selection accepting means for accepting selection of a character;
Response executing means for executing response processing in accordance with the request received by the receiving means,
The response execution means includes
Extracting means for extracting response data using the basic dictionary of the first database provided corresponding to the selected character when the receiving means receives the first request;
Obtaining means for obtaining response data extracted using an additional dictionary of the second database associated with the selected character when the accepting means accepts a second request;
Speech synthesis means for performing speech synthesis based on the extracted or acquired response data and the character selected by the selection receiving means;
A terminal comprising: output means for outputting voice-synthesized voice data.
ユーザからの第1あるいは第2の要求を受け付ける受付手段と、
キャラクタの選択を受け付ける選択受付手段と、
前記受付手段で受け付けた要求に従って応答処理を実行する応答実行手段とを備え、
前記応答実行手段は、
前記受付手段で第1の要求を受け付けた場合に、選択されたキャラクタに対応して設けられた前記第1のデータベースの基本辞書を利用して応答データを取得する取得手段と、
前記受付手段で第2の要求を受け付けた場合に、選択されたキャラクタに関連付けられた前記第2のデータベースの追加辞書を利用して応答データを抽出する抽出手段と、
抽出あるいは取得された応答データと前記選択受付手段で選択されたキャラクタとに基づいて音声合成する音声合成手段と、
音声合成した音声データを出力する出力手段とを含む、端末。 A first database including a plurality of basic dictionaries provided in an external device and provided corresponding to a plurality of selectable characters and storing response data used for response processing to the first request for each character And an additional dictionary that is provided in the main body, is associated with the plurality of characters, and stores the response data used for response processing to the second request instead of the basic dictionary corresponding to the selected character. A terminal that uses the database in FIG.
Accepting means for accepting a first or second request from a user;
Selection accepting means for accepting selection of a character;
Response executing means for executing response processing in accordance with the request received by the receiving means,
The response execution means includes
Obtaining means for obtaining response data using the basic dictionary of the first database provided corresponding to the selected character when the accepting means accepts the first request;
An extraction means for extracting response data using an additional dictionary of the second database associated with the selected character when the receiving means receives a second request;
Speech synthesis means for performing speech synthesis based on the extracted or acquired response data and the character selected by the selection receiving means;
A terminal comprising: output means for outputting voice-synthesized voice data.
ユーザからの第1あるいは第2の要求を受け付ける受付手段と、
キャラクタの選択を受け付ける選択受付手段と、
前記受付手段で受け付けた要求に従って応答処理を実行する応答実行手段とを備え、
前記応答実行手段は、
前記受付手段で第1の要求を受け付けた場合に、選択されたキャラクタに対応して設けられた前記データベースの基本辞書を利用して応答データを抽出する第1の抽出手段と、
前記受付手段で第2の要求を受け付けた場合に、選択されたキャラクタに関連付けられた前記データベースの追加辞書を利用して応答データを抽出する第2の抽出手段と、
抽出された応答データと前記選択受付手段で選択されたキャラクタとに基づいて音声合成する音声合成手段と、
音声合成した音声データを出力する出力手段とを含む、端末。 A plurality of basic dictionaries provided in the main body, configured to be additionally writable, provided corresponding to a plurality of selectable characters, and storing response data used for response processing to the first request for each character And a terminal using a database associated with the plurality of characters and including an additional dictionary storing the response data used for response processing to the second request instead of the basic dictionary corresponding to the selected character There,
Accepting means for accepting a first or second request from a user;
Selection accepting means for accepting selection of a character;
Response executing means for executing response processing in accordance with the request received by the receiving means,
The response execution means includes
When the first request received by said receiving means, first extracting means for extracting the reply data using the basic dictionary of the database provided corresponding to the selected character,
If the second request accepted by the accepting means, second extracting means for extracting the reply data using the additional dictionary of the database that is associated with the selected character,
Speech synthesis means for synthesizing speech based on the extracted response data and the character selected by the selection receiving means;
A terminal comprising: output means for outputting voice-synthesized voice data.
前記端末プログラムは、前記コンピュータに
ユーザからの第1あるいは第2の要求を受け付けるステップと、
キャラクタの選択を受け付けるステップと、
受け付けた第1あるいは第2の要求に応じて前記データベースを利用して抽出された応答データと選択されたキャラクタとに基づいて音声合成された音声データを出力するステップとを備える、処理を実行させるように機能させる、端末プログラム。 A plurality of basic dictionaries provided in an external device, configured to be additionally writable, provided corresponding to a plurality of selectable characters, and storing response data used for response processing to the first request for each character And a terminal using a database including the additional dictionary in which the response data used in response to the second request is used instead of the basic dictionary corresponding to the selected character and associated with the plurality of characters. A terminal program for causing a computer to execute,
The terminal program accepts a first or second request from a user to the computer;
Receiving a character selection;
Outputting the voice data synthesized based on the response data extracted using the database in response to the accepted first or second request and the selected character, and executing the process. Terminal program to make it function like
前記端末プログラムは、前記コンピュータに、
ユーザからの第1あるいは第2の要求を受け付けるステップと、
キャラクタの選択を受け付けるステップと、
受け付けた要求に従って応答処理を実行するステップとを備え、
前記応答処理を実行するステップは、
第1の要求を受け付けた場合に、選択されたキャラクタに対応して設けられた前記第1のデータベースの基本辞書を利用して応答データを抽出するステップと、
第2の要求を受け付けた場合に、選択されたキャラクタに関連付けられた前記第2のデータベースの追加辞書を利用して抽出された応答データを取得するステップと、
抽出あるいは取得された応答データと選択されたキャラクタとに基づいて音声合成するステップと、
音声合成した音声データを出力するステップとを含む、処理を実行させるように機能させる、端末プログラム。 A plurality of basic dictionaries provided in the main body, configured to be additionally writable, provided corresponding to a plurality of selectable characters, and storing response data used for response processing to the first request for each character And the response data used in response processing to the second request instead of the basic dictionary associated with the plurality of characters and associated with the selected character is stored in the first database including A terminal program for causing a terminal computer using the second database including the additional dictionary to be executed,
The terminal program is stored in the computer.
Receiving a first or second request from a user;
Receiving a character selection;
And executing a response process according to the received request,
The step of executing the response process includes:
Extracting response data using the basic dictionary of the first database provided corresponding to the selected character when receiving the first request;
Obtaining response data extracted using the additional dictionary of the second database associated with the selected character when receiving the second request;
Synthesizing speech based on the extracted or acquired response data and the selected character;
A terminal program that causes a process to be executed, including the step of outputting voice-synthesized voice data.
前記端末プログラムは、前記コンピュータに、
ユーザからの第1あるいは第2の要求を受け付けるステップと、
キャラクタの選択を受け付けるステップと、
受け付けた要求に従って応答処理を実行するステップとを備え、
前記応答処理を実行するステップは、
第1の要求を受け付けた場合に、選択されたキャラクタに対応して設けられた前記第1のデータベースの基本辞書を利用して応答データを取得するステップと、
第2の要求を受け付けた場合に、選択されたキャラクタに関連付けられた前記第2のデータベースの追加辞書を利用して応答データを抽出するステップと、
抽出あるいは取得された応答データと選択されたキャラクタとに基づいて音声合成するステップと、
音声合成した音声データを出力するステップとを含む、処理を実行させるように機能させる、端末プログラム。 A first database including a plurality of basic dictionaries provided in an external device and provided corresponding to a plurality of selectable characters and storing response data used for response processing to the first request for each character And an additional dictionary that is provided in the main body, is associated with the plurality of characters, and stores the response data used for response processing to the second request instead of the basic dictionary corresponding to the selected character. A terminal program for causing a computer of a terminal using the database of 2 to be executed,
The terminal program is stored in the computer.
Receiving a first or second request from a user;
Receiving a character selection;
And executing a response process according to the received request,
The step of executing the response process includes:
Obtaining response data using the basic dictionary of the first database provided corresponding to the selected character when receiving the first request;
Extracting response data using an additional dictionary of the second database associated with the selected character when receiving a second request;
Synthesizing speech based on the extracted or acquired response data and the selected character;
A terminal program that causes a process to be executed, including the step of outputting voice-synthesized voice data.
前記端末プログラムは、前記コンピュータに、
ユーザからの第1あるいは第2の要求を受け付けるステップと、
キャラクタの選択を受け付けるステップと、
受け付けた要求に従って応答処理を実行するステップとを備え、
前記応答処理を実行するステップは、
第1の要求を受け付けた場合に、選択されたキャラクタに対応して設けられた前記データベースの基本辞書を利用して応答データを抽出するステップと、
第2の要求を受け付けた場合に、選択されたキャラクタに関連付けられた前記データベースの追加辞書を利用して応答データを抽出するステップと、
抽出された応答データと選択されたキャラクタとに基づいて音声合成するステップと、
音声合成した音声データを出力するステップとを含む、処理を実行させるように機能させる、端末プログラム。 A plurality of basic dictionaries provided in the main body, configured to be additionally writable, provided corresponding to a plurality of selectable characters, and storing response data used for response processing to the first request for each character And a terminal using a database including the additional dictionary in which the response data used in response to the second request is used instead of the basic dictionary corresponding to the selected character and associated with the plurality of characters. A terminal program for causing a computer to execute,
The terminal program is stored in the computer.
Receiving a first or second request from a user;
Receiving a character selection;
And executing a response process according to the received request,
The step of executing the response process includes:
A step when receiving a first request, extracts the response data by using a basic dictionary of the database provided corresponding to the selected character,
A step when receiving the second request, extracts the response data by using the additional dictionary of the database that is associated with the selected character,
Synthesizing speech based on the extracted response data and the selected character;
A terminal program that causes a process to be executed, including the step of outputting voice-synthesized voice data.
ユーザからの要求を受け付ける受付手段と、
キャラクタの選択を受け付ける選択受付手段と、
前記受付手段で受け付けた要求に従って応答処理を実行する応答実行手段とを備え、
前記データベースは、選択可能な複数のキャラクタにそれぞれ対応して設けられ、当該キャラクタ毎に応答データが保存された複数の基本辞書を含み、
選択されたキャラクタに対応する基本辞書の代わりに用いられる前記応答データが保存された追加辞書を受け付ける追加辞書受付部と、
前記追加辞書受付部の前記追加辞書の受け付けに従って、当該追加辞書とともに前記複数のキャラクタと追加辞書との対応関係を表す対応テーブルを前記データベースに登録する登録部とをさらに備え、
前記応答実行手段は、
前記受け付けた要求が第1の要求である場合に、選択されたキャラクタに対応して設けられた基本辞書を利用して応答データを抽出する第1抽出手段と、
前記受け付けた要求が第2の要求である場合に、前記対応テーブルを参照して、選択されたキャラクタに対応する追加辞書を利用して応答データを抽出する第2抽出手段と、
抽出した応答データと、選択されたキャラクタとに基づいて音声合成する音声合成手段と、
音声合成した音声データを出力する出力手段とを含む、音声データ出力装置。 An audio data output device that uses a database configured to be appendable,
A receiving means for receiving a request from a user;
Selection accepting means for accepting selection of a character;
Response executing means for executing response processing in accordance with the request received by the receiving means,
The database includes a plurality of basic dictionaries that are respectively provided corresponding to a plurality of selectable characters and in which response data is stored for each character.
An additional dictionary receiving unit that receives an additional dictionary storing the response data used instead of the basic dictionary corresponding to the selected character;
A registration unit for registering a correspondence table representing a correspondence relationship between the plurality of characters and the additional dictionary together with the additional dictionary in the database according to reception of the additional dictionary of the additional dictionary reception unit,
The response execution means includes
First extraction means for extracting response data using a basic dictionary provided corresponding to the selected character when the received request is a first request;
A second extraction means for extracting response data using an additional dictionary corresponding to the selected character with reference to the correspondence table when the accepted request is a second request;
Speech synthesis means for performing speech synthesis based on the extracted response data and the selected character;
An audio data output device including output means for outputting the synthesized voice data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014129415A JP6124844B2 (en) | 2014-06-24 | 2014-06-24 | SERVER, METHOD USING DATABASE, PROGRAM, SYSTEM, TERMINAL, TERMINAL PROGRAM, AND VOICE DATA OUTPUT DEVICE |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014129415A JP6124844B2 (en) | 2014-06-24 | 2014-06-24 | SERVER, METHOD USING DATABASE, PROGRAM, SYSTEM, TERMINAL, TERMINAL PROGRAM, AND VOICE DATA OUTPUT DEVICE |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016009072A JP2016009072A (en) | 2016-01-18 |
JP6124844B2 true JP6124844B2 (en) | 2017-05-10 |
Family
ID=55226657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014129415A Active JP6124844B2 (en) | 2014-06-24 | 2014-06-24 | SERVER, METHOD USING DATABASE, PROGRAM, SYSTEM, TERMINAL, TERMINAL PROGRAM, AND VOICE DATA OUTPUT DEVICE |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6124844B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230032760A1 (en) * | 2021-08-02 | 2023-02-02 | Bear Robotics, Inc. | Method, system, and non-transitory computer-readable recording medium for controlling a serving robot |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001227962A (en) * | 2000-02-15 | 2001-08-24 | Fujitsu Ten Ltd | Navigation device |
JP4741817B2 (en) * | 2004-07-14 | 2011-08-10 | 日本電気株式会社 | Audio output device, character image display device, audio output method, and character image display method |
JP6166889B2 (en) * | 2012-11-15 | 2017-07-19 | 株式会社Nttドコモ | Dialog support apparatus, dialog system, dialog support method and program |
-
2014
- 2014-06-24 JP JP2014129415A patent/JP6124844B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016009072A (en) | 2016-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6113302B2 (en) | Audio data transmission method and apparatus | |
CN111261144B (en) | Voice recognition method, device, terminal and storage medium | |
JP2019057273A (en) | Method and apparatus for pushing information | |
CN107895578A (en) | Voice interactive method and device | |
CN105190745A (en) | Methods and systems for sharing of adapted voice profiles | |
JP6783339B2 (en) | Methods and devices for processing audio | |
CN109801618B (en) | Audio information generation method and device | |
CN111508511A (en) | Real-time sound changing method and device | |
US20230206897A1 (en) | Electronic apparatus and method for controlling thereof | |
JP6391386B2 (en) | Server, server control method, and server control program | |
WO2019242414A1 (en) | Voice processing method and apparatus, storage medium, and electronic device | |
KR20190005103A (en) | Electronic device-awakening method and apparatus, device and computer-readable storage medium | |
JP6166889B2 (en) | Dialog support apparatus, dialog system, dialog support method and program | |
CN113436609A (en) | Voice conversion model and training method thereof, voice conversion method and system | |
KR101989127B1 (en) | Method, system and computer program for translation | |
JP6124844B2 (en) | SERVER, METHOD USING DATABASE, PROGRAM, SYSTEM, TERMINAL, TERMINAL PROGRAM, AND VOICE DATA OUTPUT DEVICE | |
JP2015087649A (en) | Utterance control device, method, utterance system, program, and utterance device | |
CN109684501A (en) | Lyrics information generation method and its device | |
KR20120096880A (en) | Method, system and computer-readable recording medium for enabling user to play digital instrument based on his own voice | |
CN114708849A (en) | Voice processing method and device, computer equipment and computer readable storage medium | |
CN114154636A (en) | Data processing method, electronic device and computer program product | |
JP6179884B2 (en) | WFST creation device, speech recognition device, speech translation device, WFST creation method, and program | |
KR102622350B1 (en) | Electronic apparatus and control method thereof | |
KR20210098250A (en) | Electronic device and Method for controlling the electronic device thereof | |
KR102376552B1 (en) | Voice synthetic apparatus and voice synthetic method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160920 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161004 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20161027 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170314 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170404 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6124844 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |