JP2019211909A - Information presentation system, information presentation method and program - Google Patents
Information presentation system, information presentation method and program Download PDFInfo
- Publication number
- JP2019211909A JP2019211909A JP2018106181A JP2018106181A JP2019211909A JP 2019211909 A JP2019211909 A JP 2019211909A JP 2018106181 A JP2018106181 A JP 2018106181A JP 2018106181 A JP2018106181 A JP 2018106181A JP 2019211909 A JP2019211909 A JP 2019211909A
- Authority
- JP
- Japan
- Prior art keywords
- user
- listening
- dialogue
- voice
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 51
- 230000008859 change Effects 0.000 claims description 94
- 230000004044 response Effects 0.000 claims description 56
- 238000012545 processing Methods 0.000 claims description 45
- 230000009471 action Effects 0.000 claims description 40
- 230000008569 process Effects 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims 2
- 238000012986 modification Methods 0.000 claims 2
- 238000012423 maintenance Methods 0.000 abstract description 4
- 230000004075 alteration Effects 0.000 abstract 4
- 230000015572 biosynthetic process Effects 0.000 description 15
- 238000003786 synthesis reaction Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 239000000284 extract Substances 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 11
- 230000011218 segmentation Effects 0.000 description 10
- 238000010276 construction Methods 0.000 description 8
- 238000012790 confirmation Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 238000009434 installation Methods 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 238000006748 scratching Methods 0.000 description 4
- 230000002393 scratching effect Effects 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Abstract
Description
本発明は、情報提示システム、情報提示方法及びプログラムに関する。 The present invention relates to an information presentation system, an information presentation method, and a program.
近年、インターネット環境が充実したことにより、ソーシャル・ネットワーク・サービス(以下、SNSと示す)が普及し、テキストや画像を用いて複数のユーザ間において簡易に意思疎通を行うことが可能となっている。例えば、SNSのアプリケーションとしては、LINE(登録商標)、Facebook(登録商標)メッセンジャー、Slack(登録商標)などが代表的である。これらのSNSは、一対一のユーザ間の情報のやり取りだけでなく、所定のグループにおける多人数のユーザ間で送受信する情報(複数のユーザ間における対話)を、グループ内の全てのユーザで共有する機能も有している。 In recent years, due to the enhancement of the Internet environment, social network services (hereinafter referred to as SNS) have become widespread, and it has become possible to easily communicate between a plurality of users using text and images. . For example, LINE (registered trademark), Facebook (registered trademark) messenger, Slack (registered trademark), and the like are representative examples of SNS applications. These SNSs share not only the exchange of information between one-to-one users but also the information (dialogs among a plurality of users) transmitted and received among a large number of users in a predetermined group among all users in the group. It also has a function.
また、マン・マシン対話型のSNSとしては、Google Assistant(登録商標)、Amazon Alexa(登録商標)、Line Clova(登録商標)などがある。
また、上述したアプリケーションの各々が、パーソナルコンピュータ及びスマートデバイスや、Google Home(登録商標)、Amazon Echo(登録商標)、Clova Wave(登録商標)などのスマートスピーカに搭載され、それぞれにおいて音声合成されて、音声を用いた情報提示を主体としたものも広く利用されている。
Examples of man-machine interactive SNS include Google Assistant (registered trademark), Amazon Alexa (registered trademark), and Line Cova (registered trademark).
In addition, each of the above-described applications is mounted on a smart speaker such as a personal computer and a smart device, Google Home (registered trademark), Amazon Echo (registered trademark), or Clova Wave (registered trademark), and each of them is synthesized by speech. In addition, information mainly using information presentation using voice is also widely used.
SNSにおける情報提示方法には、上記アプリケーション毎に様々な工夫がされている。
例えば、情報提示における提示内容に対して、システム上で定義したキャラクタとともに情報文を提示することを目的として、情報文の言語表現を書き換えて提示する提示方法がある(例えば、特許文献1参照)。
In the information presentation method in SNS, various ideas are made for each application.
For example, there is a presentation method for rewriting and presenting the language expression of an information sentence for the purpose of presenting an information sentence together with characters defined on the system for the presentation contents in information presentation (see, for example, Patent Document 1). .
また、ユーザに対して音声により情報提示を行う場合、提示に用いる音声の音声合成に関して、システムが合成した情報提示の音声をユーザに対して、スピーカなどを介して発話して情報の提示を行う。このとき、アプリケーションが、提示される発話をユーザが聴いた際に、発話に対して機械的な不自然さを感じさせない処理を行う情報提示の方法がある(例えば、特許文献2及び特許文献3参照)。 In addition, when information is presented to the user by voice, the information presentation voice synthesized by the system is uttered to the user via a speaker or the like for voice synthesis of voice used for presentation. . At this time, when the user listens to the utterance to be presented, there is an information presentation method for performing processing that does not feel mechanical unnaturalness to the utterance (for example, Patent Document 2 and Patent Document 3). reference).
しかしながら、ユーザとシステムとの間において、音声のみによる対話が行われる場合、ユーザの属性が年齢あるいは性別などの多様性を有しているため、ユーザの聴力や単語に対する理解力が異なる。
このため、システムとの対話において、システムが音声により提供する情報が聞き取れない、あるいは、音声における単語を理解できない等により、対話において情報の内容が正確に伝達されない場合がある。
However, when a dialogue only by voice is performed between the user and the system, the user's hearing ability and comprehension ability for words differ because the user's attributes have diversity such as age or gender.
For this reason, in the dialogue with the system, there is a case where the information provided by the system cannot be heard or the contents of the information cannot be accurately transmitted in the dialogue because the words in the voice cannot be understood.
また、ユーザとシステムとの対話を行うために、ユーザからの問いかけに対してどのような回答をするかについて、予め対話シナリオを想定して対話を実行するルールベース手法を用いることができる。
しかしながら、ルールベースに設定されたルールの各々に対して、多くのユーザの各々に対応させる必要性から手作業によるメンテナンスの必要が有る。このメンテナンスにおいて、上述した多様性のあるユーザの各々に対応させて、聞き取りにくいあるいは理解が困難な単語についての類義の単語や表現を含む上記ルールを設定し、対話シナリオとして構築することは膨大な作業が必要となる。
In addition, in order to perform a dialogue between the user and the system, a rule-based method can be used in which a dialogue is executed in advance assuming a dialogue scenario as to what kind of answer is to be given to the question from the user.
However, there is a need for manual maintenance for each of the rules set in the rule base because of the necessity to correspond to each of many users. In this maintenance, it is enormous to set up the above rules that contain similar words and expressions for words that are difficult to understand or difficult to understand, corresponding to each of the diverse users described above, and constructing it as a dialogue scenario Work is required.
本発明は、このような状況に鑑みてなされたもので、システムが音声により提供する情報を、ユーザの各々が正確に聞き取ることができ、正確に聞き取れるように発話データを変更する変更モデルがユーザ毎に設けられ、ルールベースに比較してデータ量が少ないため変更モデルのメンテナンス(ユーザに順次対応させていく修正処理)が容易に行える情報提示システム、情報提示方法及びプログラムを提供する。 The present invention has been made in view of such circumstances, and a change model that changes utterance data so that each of the users can accurately hear the information provided by the system and can be heard accurately is provided by the user. Provided are an information presentation system, an information presentation method, and a program that are provided for each, and can easily maintain a changed model (a correction process that sequentially corresponds to a user) because the amount of data is smaller than that of a rule base.
上述した課題を解決するために、本発明の情報提示システムは、ユーザとの対話において、前記ユーザの各々の音声の聞き取り易さを示す聴取志向を推定し、当該ユーザに対して音声により供給される発話データを、前記ユーザの前記聴取志向に対応して変更する変更モデル(実施形態における聴取志向推定モデル及び聴取志向テンプレートモデルの各々を含む)を生成、予測及び更新する聴取志向推定部と、前記ユーザ毎に設定されている前記変更モデルに対応し、対話システムからの音声による回答である前記発話データを、前記ユーザの各々の前記聴取志向となるよう変更する提示制御部とを備えることを特徴とする。 In order to solve the above-described problems, the information presentation system of the present invention estimates the listening orientation indicating the ease of hearing of each voice of the user in the dialog with the user, and is supplied to the user by voice. A listening orientation estimation unit that generates, predicts, and updates a change model (including each of the listening orientation estimation model and the listening orientation template model in the embodiment) that changes the speech data corresponding to the listening orientation of the user; A presentation control unit that corresponds to the change model set for each user, and that changes the utterance data, which is an answer by voice from a dialogue system, to be the listening preference of each of the users. Features.
本発明の情報提示システムは、前記聴取志向を推定する際に用いる、前記ユーザの各々との前記対話の履歴である対話履歴を対話履歴記憶部に対して、前記ユーザ毎に書き込んで記憶させる、ユーザからの発話に対してルールに基づき応答を決定する対話処理部をさらに備えることを特徴とする。 The information presentation system of the present invention writes and stores, for each user, a dialog history, which is a history of the dialog with each of the users, used for estimating the listening orientation. It further includes a dialog processing unit that determines a response to an utterance from the user based on a rule.
本発明の情報提示システムは、前記聴取志向推定部が、前記ユーザの前記対話における前記発話データに対する評価から、当該ユーザの前記聴取志向を抽出して、前記ユーザの属性情報及び当該ユーザの前記聴取志向を示す志向情報の各々を、ユーザ属性記憶部に対して、前記ユーザ毎に書き込んで記憶させることを特徴とする。 In the information presentation system of the present invention, the listening orientation estimation unit extracts the listening orientation of the user from the evaluation of the utterance data in the dialogue of the user, and the attribute information of the user and the listening of the user Each of the orientation information indicating the orientation is written and stored for each user in the user attribute storage unit.
本発明の情報提示システムは、前記ユーザの各々の前記属性情報に対応して、前記ユーザそれぞれを分類するグルーピングを行い、前記分類毎に含まれる前記ユーザに共通する前記聴取志向により、当該分類それぞれの変更モデルであるテンプレート変更モデルを生成するグルーピング推定部をさらに備えることを特徴とする。 The information presentation system of the present invention performs grouping for classifying each of the users corresponding to the attribute information of each of the users, and each of the classifications according to the listening orientation common to the users included for each of the classifications. The method further includes a grouping estimation unit that generates a template change model that is a change model.
本発明の情報提示システムは、前記聴取志向推定部が、前記変更モデルが用意されていない前記ユーザに対して、当該ユーザに対応する前記分類の前記テンプレート変更モデルを抽出し、前記対話において抽出される前記聴取志向に対応して、当該ユーザに対応する前記変更モデルを生成することを特徴とする。 In the information presentation system of the present invention, the listening orientation estimation unit extracts the template change model of the classification corresponding to the user for the user for which the change model is not prepared, and is extracted in the dialogue. The change model corresponding to the user is generated corresponding to the listening orientation.
本発明の情報提示システムは、前記属性情報が、少なくとも、前記ユーザの年齢、性別、居住地を含むデモグラフィックデータの各々の組み合わせとして設定されることを特徴とする。 The information presentation system of the present invention is characterized in that the attribute information is set as a combination of at least demographic data including age, sex, and residence of the user.
本発明の情報提示システムは、前記変更モデルが、少なくとも、前記対話処理部により決定されたシステム応答の発話データにおける単語の置き換え、前記発話データを読み上げる際の音声の周波数及び速度、文節の区切りを変更する処理を示すことを特徴とする。 In the information presentation system of the present invention, the change model includes at least replacement of words in the utterance data of the system response determined by the dialog processing unit, frequency and speed of speech when the utterance data is read out, and paragraph breaks. It is characterized by showing processing to be changed.
本発明の情報提示システムは、前記提示制御部が、前記変更モデルによる前記発話データを変更した内容である変更内容を、対話行動記憶部に対して、変更履歴として書き込んで記憶させ、前記聴取志向推定部が、前記対話の履歴と前記変更履歴とにより、前記ユーザの前記聴取志向を抽出することを特徴とする。 In the information presentation system of the present invention, the presentation control unit writes and stores the change content, which is the content of the change of the utterance data by the change model, as a change history in the dialogue action storage unit, and the listening-oriented The estimation unit extracts the listening orientation of the user from the conversation history and the change history.
本発明の情報提示方法は、聴取志向推定部が、ユーザとの対話において、前記ユーザの各々の音声の聞き取り易さを示す聴取志向を推定し、当該ユーザに対して音声により供給される発話データを、前記ユーザの前記聴取志向に対応して変更する変更モデルを生成及び更新する聴取志向推定過程と、提示制御部が、前記ユーザ毎に設定されている前記変更モデルに対応し、ユーザからの発話に対してルールに基づき応答を決定する対話処理部を介して、対話システムからの音声による回答である前記発話データを、前記ユーザの各々の前記聴取志向となるよう変更する提示制御過程とを含むことを特徴とする。 In the information presentation method of the present invention, the listening orientation estimation unit estimates the listening orientation indicating the ease of hearing of each voice of the user in the dialog with the user, and the speech data supplied to the user by voice A listening orientation estimation process for generating and updating a change model to be changed corresponding to the listening orientation of the user, and a presentation control unit corresponding to the changing model set for each user, A presentation control process for changing the utterance data, which is an answer by voice from a dialogue system, to the listening orientation of each of the users, via a dialogue processing unit that determines a response to the utterance based on a rule. It is characterized by including.
本発明のプログラムは、コンピュータを、ユーザとの対話において、前記ユーザの各々の音声の聞き取り易さを示す聴取志向を推定し、当該ユーザに対して音声により供給される発話データを、前記ユーザの前記聴取志向に対応して変更する変更モデルを生成及び更新する聴取志向推定手段、前記ユーザ毎に設定されている前記変更モデルに対応し、対話システムからの音声による回答である前記発話データを、前記ユーザの各々の前記聴取志向となるよう変更する提示制御手段として機能させるためのプログラムである。 The program of the present invention estimates the listening orientation indicating the ease of hearing of each voice of the user in the dialogue with the user, and the speech data supplied to the user by the voice Listening orientation estimation means for generating and updating a change model that changes according to the listening orientation, the utterance data corresponding to the change model set for each user, and a speech response from a dialogue system, It is a program for making it function as a presentation control means to change so that it may become the said listening preference of each said user.
以上説明したように、本発明によれば、システムが音声により提供する情報を、ユーザの各々が正確に聞き取ることができ、正確に聞き取れるように発話データを変更する変更モデルがユーザ毎に設けられ、ルールベースに比較して事前に対話内容を想定して構築すべき対話シナリオをはじめとしたデータ量が少ないため変更モデルのメンテナンス(ユーザに順次対応させていく修正処理)が容易に行える情報提示システム、情報提示方法及びプログラムを提供することができる。
また、グルーピング推定部があることで、変更モデルが存在しない、あるいは発話データなどの蓄積が不十分なユーザの各々に対して、グループ内で一般化された変更モデルであるテンプレート変更モデルを用いることで、表示情報の最適化を行うことができる。
As described above, according to the present invention, each user can accurately hear the information provided by the system, and a change model is provided for each user to change the utterance data so that it can be heard accurately. Information presentation that facilitates maintenance of the change model (correction process that sequentially corresponds to the user) because the amount of data including the dialogue scenario that should be constructed assuming the content of the dialogue in advance compared to the rule base is small A system, an information presentation method, and a program can be provided.
In addition, because there is a grouping estimation unit, a template change model, which is a change model generalized within the group, is used for each user who does not have a change model or who has insufficient accumulation of speech data, etc. Thus, the display information can be optimized.
本発明は、例えば、ユーザが質問を行うと、システム側がその質問に対応した回答を、発話データを音声合成した音声により通知する、あるいはユーザ同士で対話する対話システムに関するものである。また、ユーザの聴力及び単語の理解力の各々に対応して、システム側が通知する発話データを変更して、ユーザが対話システムからの回答を聞き易く、また内容を理解し易くする構成に関する。 The present invention relates to an interactive system in which, for example, when a user asks a question, the system side notifies an answer corresponding to the question by voice obtained by synthesizing speech data, or a dialogue between users. Further, the present invention relates to a configuration in which the utterance data notified by the system side is changed corresponding to each of the user's hearing ability and word comprehension ability so that the user can easily hear the answer from the dialogue system and understand the contents.
ユーザの聴力に対応しては、例えば、発話データを音声合成して音声として出力する際における、この音声の周波数、再生速度、再生する文節の区切り、この区切りの時間幅などの変更を行う。ここで、区切りは、発話データを音声として再生する際に、文節と文節との間あるいは単語と単語との間に挿入される無音である。区切りの時間幅は、文節と文節との間あるいは単語と単語との間に挿入される無音の時間の長さを示している。
また、ユーザの単語の理解力に対応しては、例えば、専門用語を一般的に用いている他の同義語(あるいは類義語、類語)である単語に置き換える変更を行う。
In response to the user's hearing ability, for example, when speech data is synthesized and output as speech, the frequency of the speech, the playback speed, the segmentation of the phrase to be reproduced, the duration of the segmentation, and the like are changed. Here, the delimiter is silence that is inserted between phrases or between words when the speech data is reproduced as speech. The delimiter time width indicates the length of silent time inserted between clauses or between words.
Further, in response to the user's ability to understand words, for example, the technical term is changed to be replaced with a word that is another synonym (or synonym or synonym) generally used.
以下、本発明の一実施形態について、図面を参照して説明する。図1に対応した以下の説明においては、ユーザとシステムとの対話を例に説明する。
図1は、本発明の一実施形態による、ユーザとシステムとが対話を行う情報提示システムの構成例を示すブロック図である。
図1において、情報提示システム1は、情報提示サーバ10とユーザ端末11との各々を備えている。
情報提示サーバ10とユーザ端末11との各々は、インターネットを含む情報通信網であるネットワーク500を介してデータの送受信を行う。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings. In the following description corresponding to FIG. 1, the dialogue between the user and the system will be described as an example.
FIG. 1 is a block diagram illustrating a configuration example of an information presentation system in which a user and a system interact with each other according to an embodiment of the present invention.
In FIG. 1, the
Each of the
情報提示サーバ10は、ユーザ端末11を介して供給されるユーザの質問等に対応した回答を音声データにより、ユーザ端末11に対して出力する。ここで、音声データは、音声を所定の音声ファイルフォーマット(非圧縮音声フォーマット、非可逆圧縮音声フォーマット及び可逆圧縮音声フォーマットなど)により、デジタル化したデータを示している。情報提示サーバ10は、例えば、汎用コンピュータあるいはパーソナルコンピュータである。
The
ユーザ端末11は、Amazon Alexa(登録商標)、Apple Siri(登録商標)、Googleアシスタント(登録商標)などといった仮想パーソナルアシスタント(VPA:Virtual Personal Assistant)を利用するためのプラットフォームとなる、音声によりユーザと情報提示システム1との対話を行うスマートスピーカなどである。また、ユーザ端末11は、スマートフォン及びタブレット端末などの携帯端末、あるいはパーソナルコンピュータでも良く、表示部に画像(テキスト文字も含む)を表示させずに、音声のみによりリクエスト及びレスポンスが行われる対話アプリケーションに対して応用しても良い。
The
情報提示サーバ10は、データ入出力部101、対話処理部102、聴取志向推定部103、提示制御部104、音声合成部105、グルーピング推定部106、対話履歴記憶部107、ユーザ属性記憶部108、対話行動記憶部109、グルーピング記憶部110及び言語知識記憶部111の各々を備えている。
The
データ入出力部101は、ユーザがユーザ端末11に対して入力した音声の音声データを含むデータを、ネットワーク500を介して入力する外部入力インターフェースである。
また、データ入出力部101は、ユーザからの音声データの内容に対する回答などの音声データを含むデータを、ネットワーク500を介してユーザ端末11に対して出力する外部出力インターフェースでもある。
また、データ入出力部101は、情報提示サーバ10を操作する制御信号などのデータを、マイクロフォン、キーボード、各種センサを含む入力手段から直接に、データ(音声データを含む)を取得する機能を有している。
The data input /
The data input /
Further, the data input /
対話処理部102は、ユーザからの音声データを解析し、ユーザの音声データの内容を推定する。そして、対話処理部102は、この推定した内容に対する回答メッセージ(対話における回答)として、テキスト文の発話データを生成する。
The
図2は、本実施形態における対話処理部102の構成例を示すブロック図である。図2において、対話処理部102は、解析部1021、対話管理部1022及び生成部1023の各々を備えている。
解析部1021は、データ入出力部101から供給される音声データを、文字化、すなわちテキスト変換し、対話履歴記憶部107に対して書き込んで記憶させる。
FIG. 2 is a block diagram illustrating a configuration example of the
The
また、対話処理部102は、テキスト変換したテキスト文の形態素解析を行い、得られた形態素からのキーワード抽出、形態素のベクトル化などの数値化処理を行い、テキスト文の数値データへの変換処理を行う。この変換処理は、自然言語処理技術あるいは機械学習技術を用いて行う。本実施形態において、例えば、tf(term frequency)−idf(inverse document frequency)法によるキーワード抽出、word2vec及びdoc2vecによるベクトル化などの手法を用いても良い。対話処理部102は、抽出されたキーワードあるいはベクトル化された数値データを、対話管理部1022に対して出力する。
In addition, the
図3は、対話履歴記憶部107に記憶されている対話履歴テーブルの構成例を示す図である。図3において、対話履歴テーブルは、レコード毎に対して、メッセージ時刻、話者ID(Identification)、メッセージ本文、聴取志向フレーズフラグ、メッセージID1及びメッセージID2の各々の欄が設けられている。
FIG. 3 is a diagram illustrating a configuration example of a dialogue history table stored in the dialogue
ここで、メッセージ時刻は、メッセージのうち音声データを入力した、あるいはメッセージのうち発話データを出力した時刻を示している。話者IDは、音声データあるいは発話データを出力した話者の識別情報(話者がユーザであれば後述するユーザID)を示している。例えば、話者IDにおいて「U_001」は、話者がユーザであり、このユーザを識別するユーザ識別情報である。また、話者IDにおいて「C_001」は、話者が情報提示サーバ10(システム)であり、このシステムを識別するシステム識別情報である。話者が情報提示サーバ10である場合、ユーザの音声データの内容の種別(天気、健康、科学など)毎に、異なるシステムが回答するため、複数の異なるシステム識別情報がある。
Here, the message time indicates the time when voice data is input in the message or the utterance data is output in the message. The speaker ID indicates identification information of a speaker who outputs voice data or speech data (a user ID described later if the speaker is a user). For example, “U — 001” in the speaker ID is user identification information for identifying the user who is the speaker. In the speaker ID, “C — 001” is system identification information for identifying the system where the speaker is the information presentation server 10 (system). When the speaker is the
また、メッセージ本文は、音声データをテキスト変換した文字データ、あるいは発話データなどのテキストデータが記載されている。聴取志向フレーズフラグは、ユーザからの音声データの内容が質問ではなく、情報提示サーバ10からの発話データに基づく音声が理解できないことを示しているメッセージ本文に対して付与するフラグである。ここで、聴取志向フレーズフラグが「0」、すなわちフラグが立っていない場合、対応するメッセージ本文が通常の会話のフレーズであることを示している。
In the message body, text data such as character data obtained by converting voice data into text or speech data is described. The listening-oriented phrase flag is a flag that is given to the message text indicating that the content of the voice data from the user is not a question and the voice based on the utterance data from the
一方、聴取志向フレーズフラグが「1」、すなわちフラグが立っている場合、対応するメッセージ本文に対して、ユーザがシステムの音声の内容が判らない(聞き取れない或いは内容が理解できない)ことを示す聴取志向フレーズであることを示している。
例えば、図3において、聴取志向フレーズフラグが「1」とされたメッセージ本文は、「聞き取れなかったから、もう一回御願い」であり、情報提示サーバ10がユーザ端末11から出力する音声が聞き取れなかった(周波数、音量、区切りなどの聴取志向におけるパラメータにより)ことを示している。この聴取志向フレーズは、情報提示サーバ10からのユーザのリクエストに対するレスポンスである音声コンテンツに対して、ユーザが音声コンテンツの聞き取り易さの程度を示す単語(後述するポジティブワード及びネガティブワードに対応)、あるいは同義語(類義語、類語)であり、予め識者により所定のフレーズとして登録されている。
On the other hand, when the listening-oriented phrase flag is “1”, that is, when the flag is set, the user does not understand the contents of the system voice for the corresponding message body (cannot hear or understand the contents). It shows that it is an intention phrase.
For example, in FIG. 3, the message body in which the listening-oriented phrase flag is “1” is “Since it could not be heard, please make another request”, and the voice that the
また、メッセージID1は、同一のレコードにおけるメッセージ本文を指し示す識別情報である。一方、メッセージID2は、ユーザ及びシステムの各々の間の対話において、メッセージID1の示すメッセージ本文のメッセージに対して直前のメッセージの識別情報(すなわち、メッセージID1)である識別情報である。
したがって、ユーザ及びシステムの各々の間の対話における前後の関係を確認する際、確認したいメッセージ本文のレコードにあるメッセージID2を読み出し、このメッセージID2と同一のメッセージID1を検索することにより、確認したいメッセージ本文の直前のメッセージのメッセージ本文を検索することができ、対話の連続したメッセージ本文の各々を容易に確認できる。
Message ID1 is identification information indicating the message text in the same record. On the other hand, the message ID 2 is identification information that is identification information of the immediately preceding message (that is, message ID 1) with respect to the message in the message body indicated by the
Therefore, when confirming the relationship before and after in the dialogue between the user and the system, the message ID 2 in the record of the message body to be confirmed is read, and the
例えば、話者IDがC_001のメッセージID1:M180101003に対して、メッセージID2:M180101001となっている。このため、「今週の週末はいかがですか?」を回答とする質問が、メッセージID1:M180101001の「○○にいきたい」であることが容易に検索できる。メッセージID1及びメッセージID2の各々が連続した番号でないのは、途中で他の対話が行われる場合があり、一つの対話におけるメッセージが常に連続して入力されないことを示している。 For example, message ID2: M180101001 is corresponding to message ID1: M180101003 with speaker ID C_001. For this reason, it is possible to easily search that the question with “How about this weekend?” Is “I want to go to ○○” of message ID 1: M180101001. The fact that each of message ID1 and message ID2 is not a continuous number indicates that another dialog may be performed in the middle, and messages in one dialog are not always input continuously.
図2に戻り、対話管理部1022は、キーワードや数値データの各々とともに供給されるメッセージID1により、対話履歴記憶部107を参照して、メッセージID1及びメッセージID2の各々の関係から、ユーザの状態(会話フレーズか聴取志向フレーズ)であるかを定義する。そして、対話管理部1022は、メッセージ本文が会話フレーズである場合、情報提示サーバ10によるユーザへのシステム応答の指針(例えば、ジャンル指定、場所指定、天気指定、交通の時刻表指定などの対話行為タイプ)を決定する。
Returning to FIG. 2, the
すなわち、対話管理部1022は、ユーザからの会話フレーズとしてのリクエスト(問いかけ)に対して、システム側からのレスポンス(応答)をデータベース化した構成としても良いし、機械学習あるいは強化学習などの枠組みを用いて、リクエストに対応するレスポンスの内容を出力する対話モデルを生成して構成として用いても良い。この対話管理部1022の処理については、一般的な公知の技術である対話システムと同様のため、詳細な説明を省略する。
That is, the
また、対話管理部1022は、メッセージID1の各々のメッセージ本文のキーワードや数値データそれぞれから、会話フレーズか聴取志向フレーズのいずれかであることを検出すると、対話履歴記憶部107の対話記憶履歴テーブルの対応するレコードにおける聴取志向フレーズフラグの操作を行う。このとき、対話管理部1022は、メッセージ本文が会話フレーズであると判定した場合、聴取志向フレーズフラグを「0」として、フラグを立てない。一方、対話管理部1022は、メッセージ本文が聴取志向フレーズであると判定した場合、聴取志向フレーズフラグを「1」として、フラグを立てる。
When the
生成部1023は、対話管理部1022の出力するシステム応答の指針に基づき、その指針に対応したシステム応答モデルを用いて、テキストデータの応答文である発話データを生成する。すなわち、生成部1023は、リクエストのメッセージ本文から抽出したキーワードやベクトル化した数値データなどを、上記システム応答モデルに対して入力し、リクエストに対応した内容の発話データを生成する。上記システム応答モデルは、公知の技術の教師データ有りの機械学習により、リクエストの内容に対応したレスポンスの発話データが得られるように生成されている。
The
また、生成部1023は、機械学習により得られたシステム応答モデルを用いるのではなく、予め作成しておいた文章の雛形(文章テンプレート)に対して、外部API(Application Programming Interface)を用いて、必要な情報を入手して当てはめて文章を完成させる手法を用いても良い。
例えば、生成部1023は、リクエストが電車の時刻である場合、出発駅と到着駅と、所定の時刻との情報により、時刻表検索の外部APIを用いて、電車の時刻を検索し、検索結果を雛形の所定の位置に挿入して、レスポンスの発話データを生成する。
In addition, the
For example, when the request is a train time, the
また、本実施形態においては、機械学習によるシステム応答モデルの手法、あるいは、外部APIの情報により、文章の雛形(文章テンプレート)を埋める手法のいずれを用いても良い。
また、本実施形態においては、リクエストと、このリクエストに対応したレスポンスとが予め書き込まれたデータベースを有している構成としても良い。この場合には、対話管理部1022がリクエストに対応するレスポンスを、データベースから抽出するため、生成部1023を備える必要は無い。
生成部1023は、生成した発話データとともに、少なくとも聴取志向フレーズフラグのデータを、聴取志向推定部103に対して出力する。
In the present embodiment, either a system response model method based on machine learning or a method of filling a sentence template (sentence template) with external API information may be used.
Moreover, in this embodiment, it is good also as a structure which has the database in which the request and the response corresponding to this request were written beforehand. In this case, since the
The
図1に戻り、聴取志向推定部103は、ユーザの属性情報(ユーザ属性情報)や対話履歴などから、このユーザの聴取志向を推定し、発話データを音声としてユーザに供給する際の提示指針を推定する。
図4は、本実施形態における聴取志向推定部103の構成例を示すブロック図である。図4において、モデル構築部1031及び聴取志向管理部1032の各々を備えている。
モデル構築部1031は、ユーザの聴取志向を推定して、提示する際に発話データ及び音声の特性を変更する指針(例えば、聴取志向のパラメータである音量、読み上げ速度及び区切りなどの調整量)を決定する処理を行う聴取志向推定モデルを生成する。本実施形態においては、聴取志向のパラメータを単にパラメータと示す場合もある。
Returning to FIG. 1, the listening
FIG. 4 is a block diagram illustrating a configuration example of the listening
The
聴取志向推定モデルは、ユーザの属性情報及び発話データのテキストデータを入力することにより、聴取志向における変更対象のパラメータと、この変更対象のパラメータの変更量、あるいは置き換える他の単語を推定結果として出力する。
また、聴取志向テンプレートモデルは、聴取志向推定モデルと同様に、グループの属性情報及び発話データのテキストデータを入力することにより、聴取志向における変更対象のパラメータと、この変更対象のパラメータの変更量、あるいは置き換える他の単語を推定結果として出力する。
The listening orientation estimation model inputs the user's attribute information and text data of speech data, and outputs the parameters to be changed in listening orientation and the change amount of the parameters to be changed or other words to be replaced as estimation results. To do.
Also, the listening-oriented template model, like the listening-oriented estimation model, inputs the group attribute information and the text data of the utterance data, so that the change-target parameter and the change amount of the change-target parameter, Alternatively, another word to be replaced is output as an estimation result.
ここで、モデル構築部1031は、上記聴取志向推定モデルとして、聴取志向を推定するための数式、あるいはルールを生成(構築)し、順次更新していく。本実施形態において、聴取志向は、ユーザの聴力に対応するパラメータとして、ユーザが発話データを音声合成した音声を聞いた際、聞き取り易いやすい音声の周波数、再生速度、再生する文節の区切り、この区切りの時間幅などを示している。
Here, the
モデル構築部1031が聴取志向推定モデルを生成する際、機械学習、教科学習、ニューラルネットワークなどのアルゴリズムを用いて、後述するように、対話履歴記憶部107及び対話行動記憶部109の各々の対話の内容や聴取志向のパラメータの変更における履歴のデータに基づいて、聴取志向推定モデルにおける聴取志向のパラメータやこのパラメータの変更量を推定する推定アルゴリズムにおける最適化を行う。
When the
すなわち、モデル構築部1031は、推定に必要な数式やルールとして、置き換えの単語の候補、発話データ全体の文章における聴取志向に関するパラメータである周波数、読み上げ速度及び区切りなどを推定するためのパラメータ推定用の基底関数を準備し、対話履歴記憶部107及び対話行動記憶部109の各々の対話の内容や聴取志向のパラメータの変更における履歴のデータを教師データとして、聴取志向推定モデル(あるいは、後述する聴取志向テンプレートモデル)の構築、あるいは更新を行う。
That is, the
また、聴取志向には、ユーザが単語の意味を理解できるか否かの知識力も含まれ、ユーザが理解できる一般的な同義語(あるいは類義語、類語)の他の単語に置き換える(変更する)こともパラメータの一つとして含まれる。
また、聴取志向には、上述した発話の周波数に対応して、発話データにおける単語に擦過音あるいは破裂音が含まれている場合、読み上げる際の周波数を低くしても、音声となった場合に高い周波数を含むことになるため、同義語(あるいは類義語、類語)であり、擦過音及び破裂音を含まない他の単語に置き換えることもパラメータの一つとして含まれる。
In addition, listening orientation also includes the knowledge of whether or not the user can understand the meaning of the word, and it is replaced (changed) with other common synonyms (or synonyms and synonyms) that the user can understand. Is also included as one of the parameters.
Also, for listening orientation, if the words in the utterance data contain a fuzzing sound or a plosive sound corresponding to the frequency of the utterance described above, even if the frequency at the time of reading is lowered, the sound is spoken. Since it includes a high frequency, it is a synonym (or a synonym, a synonym), and it is also included as one of the parameters to replace it with another word that does not include a scratching sound or a plosive sound.
上述した聴取志向推定モデルは、例えば、各ユーザのユーザ属性情報に対応させて、聞き取り易いやすい音声の周波数、再生速度、再生する文節の区切りの頻度、この区切りの時間幅などの各パラメータの調整量を設定した、また専門的或いは難解な単語をユーザに理解可能となるように置き換える、一般的に用いられる同義語であり、理解可能な他の単語の設定、さらに擦過音あるいは破裂音が含まれている単語を、同義語(あるいは類義語、類語)であり、擦過音及び破裂音を含まない他の単語の設定などを、置き換えリストをデータベースとして構成(データベース構成)しても良い。 The listening orientation estimation model described above adjusts each parameter such as the frequency of audio that is easy to hear, the playback speed, the frequency of segmentation of a phrase to be reproduced, and the time width of this segment, for example, corresponding to the user attribute information of each user A commonly used synonym that sets a quantity and replaces a specialized or esoteric word so that it can be understood by the user, including the setting of other words that can be understood, as well as fuzzing or popping sounds The replacement word may be configured as a database (database configuration), such as setting of other words that are synonyms (or synonyms, synonyms) and do not include a fuzzing sound or a plosive sound.
また、聴取志向推定モデルは、教師データを用いて機械学習を行う機械学習モデルとして構成(機械学習モデル構成)しても良い。この機械学習モデル構成の場合、モデル構築部1031は、対話履歴記憶部107、ユーザ属性記憶部108、対話行動記憶部109及びグルーピング記憶部110の各々に蓄積されたデータを教師データとして用いた機械学習により、ユーザ毎の聴取志向における各パラメータの変更の処理を推定する聴取志向推定モデルを生成する。
The listening orientation estimation model may be configured as a machine learning model that performs machine learning using teacher data (machine learning model configuration). In the case of this machine learning model configuration, the
聴取志向管理部1032は、モデル構築部1031がユーザ毎に生成した(導出した)聴取志向推定モデルを用いて、ユーザの各々に対応した発話データの変更処理の内容を、提示制御部104に対して出力する。ここで、変更処理は、上述した音声の周波数、再生速度、再生する文節の区切りの頻度、この区切りの時間幅などの調整、及び聞き取りやすい発音となる単語への置き換えを行う処理を示している。
The listening
また、聴取志向管理部1032は、リクエストの音声データを入力したユーザに対して、このユーザに対応する聴取志向推定モデルが生成されていない場合がある。この場合、聴取志向管理部1032は、予めテンプレートとして準備されている聴取志向テンプレートモデルを用いて、聴取志向推定モデルが生成されていないユーザに対応した発話データの変更処理の内容を、提示制御部104に対して出力する。
また、聴取志向管理部1032は、後述するグルーピング情報などを用いて類似したユーザ群の聴取志向テンプレートモデルを用いて、聴取志向推定モデルが生成されていないユーザに対応した発話データの変更処理の内容を、提示制御部104に対して出力する構成としても良い。
In addition, the listening
In addition, the listening
提示制御部104は、聴取志向推定部103から供給される発話データの変更内容における単語の置き換えに関し、言語知識記憶部111に記憶されている置き換えテーブルにより、対象となる単語を置き換える他の表現の単語を抽出する。この置き換えテーブルは、単語と、この単語に置き換える同義の単語との対応関係を示している。例えば、提示制御部104は、すでに述べたように、「今週」に対して「今度」、「週末」に対して「土曜日或いは日曜日」など、擦過音や破裂音を有する単語を、擦過音や破裂音の無い単語に置き換える処理を、置き換えテーブルを参照して行う。
The
そして、提示制御部104は、単語の置き換えを行った発話データを、音声合成部105に対して出力する。
また、聴取志向推定部103は、単語の置き換えのみでなく、破裂音または擦過音を含む文章(文節)を、破裂音及び擦過音を含まない同義(類義)の文章に置き換えるように構成しても良い。
Then, the
In addition, the listening
ここで、言語知識記憶部111には、聴取志向のパラメータとして、聞き取り易さに対する言語的な知見に基づき、理解しにくい単語の同義語であって一般的に用いられて理解し易い他の単語、擦過音または破裂音を含む単語の同義語であって擦過音及び破裂音を含まない他の単語(上述したように文節でも良い)が蓄積されている。
Here, the linguistic
例えば、医療従事者や介護士が年齢の高い人間(高齢者)と、対話する際に高齢者に理解させるために用いる単語の言い換えに関する知見、コーパス(テキストや発話を大規模に集めてデータベース化した言語資料)、同義語(類義語、類語)の辞書、シソーラス(言葉の上位概念及び下位概念)などを用いて、所定の単語に対して置き換える他の単語との組み合わせとして、言語知識記憶部111に対して予め、あるいは追加して書き込んで蓄積する。
For example, knowledge and corpora (text and utterances are collected on a large scale to create a database for medical staff and caregivers with older people (elderly people). Language
音声合成部105は、提示制御部104から供給される発話データを、変更するパラメータと、このパラメータの調整量に対応して、発話データのテキストデータを音声合成により、ユーザに対するレスポンスとしての音声コンテンツを生成する。このとき、音声合成部105は、例えば、ユーザの聴力に対応する聴取志向のパラメータ、及びその調整量として、ユーザが発話データを音声合成した音声を聞いた際、聞き取り易いやすい音声の周波数、再生する際の読み上げ速度、再生する文節の区切り、この区切りの時間幅などを変更して音声合成を行う。
そして、音声合成部105は、音声合成により生成した音声コンテンツを、データ入出力部101を介して、ユーザ端末11に対して出力する。
The
Then, the
グルーピング推定部106は、新たに履歴の発生したユーザの属性データに対応するグループを、グループ属性テーブルにより検索する。
そして、グルーピング推定部106は、グルーピング記憶部110において、上記ユーザを検索したグループのグループテーブルに追加して書き込んで記憶させる。
The grouping
Then, the grouping
図5は、ユーザ属性記憶部108に記憶されているユーザ属性テーブルの構成例を示す図である。図5において、ユーザ属性テーブルは、レコード毎に対して、ユーザID、年齢、性別、音量、読み上げ速度、区切り、設置環境、…などのユーザ属性の項目の欄が設けられている。ユーザIDは、ユーザ端末11を用いて情報提示システム1を利用しているユーザの各々を識別するための識別情報である。年齢は、対応するユーザIDで識別されるユーザの年齢を示している。性別は、対応するユーザIDで識別されるユーザが男性(male)か女性(female)であるかを示している。
FIG. 5 is a diagram illustrating a configuration example of a user attribute table stored in the user
また、音量は、対応するユーザIDで識別されるユーザが、聞き取り易い(聞き取りが可能な)とする音声の音量のレベル(大、中、小)を示している。読み上げ速度は、対応するユーザIDで識別されるユーザが、発話として聞き取り易いとする音声の速度のレベル(早い、普通、遅い)を示している。区切りは、対応するユーザIDで識別されるユーザが、聞き取り易いとする発音する文節の区切りを設ける数の量(多い、普通、少ない)を示している。 The volume indicates the volume level (large, medium, or small) of the sound that the user identified by the corresponding user ID is easy to hear (can be heard). The reading speed indicates a voice speed level (fast, normal, or slow) that the user identified by the corresponding user ID can easily hear as an utterance. The delimiter indicates the amount (large, normal, small) of the number of phrases that are pronounced by the user identified by the corresponding user ID.
また、設置環境は、ユーザ端末11が設置されている場所、すなわち音声を聞き取る際の環境が、部屋が広くて音声が伝搬し易いか、部屋が小さくて反響し易いか、他の音が混入する可能性が低いか、他の音が混入する可能性が高いかなどのユーザの音声の聞き取り環境を示している。また、ユーザ属性記憶部108には、ユーザ毎にユーザIDに対応して聴取志向推定モデルが書き込まれて記憶されている。
In addition, the installation environment is the place where the
図6は、対話行動記憶部109に記憶されている対話行動テーブルの構成例を示す図である。図6において、ユーザ属性テーブルは、レコード毎に対して、時刻、ユーザID、アクションタイプ、アクションID、実施内容、メッセージID、…などの項目の欄が設けられている。時刻は、発話データに対する何らかの変更を加える処理(アクション)が行われた時刻を示している。ユーザIDは、ユーザ端末11を用いて情報提示システム1を利用しているユーザの各々を識別するための識別情報である。アクションタイプは、システム側が主導して行ったシステム主導のアクション(active)か、あるいはユーザ側からの要求に対応して行われたユーザ主導のアクション(passive)かのいずれであるかを示している。
FIG. 6 is a diagram illustrating a configuration example of a dialogue action table stored in the dialogue
また、アクションIDは、システム主導のアクションあるいはユーザ主導のアクションの各々の変更の種類を識別する識別情報である。図6においては、例えば、アクションID:A001が「単語の置き換え」であり、アクションID:A003が「読み上げ速度の変更」、アクションID:A004が「区切りの変更」を示している。実施内容は、アクションとして実際に発話データに対して実施した変更の内容を示している。図6において、アクションID:A001の例としては、「今週→今度」が「今週」という単語を「今度」とする類似単語に置き換え、「週末→土曜、日曜」が「週末」という単語を「土曜、日曜」とする類似単語(意味が類似した単語)に置き換えていることを示している。 The action ID is identification information for identifying the type of change of each of the system-driven action or the user-driven action. In FIG. 6, for example, action ID: A001 is “word replacement”, action ID: A003 indicates “change in reading speed”, and action ID: A004 indicates “change in break”. The execution content indicates the content of the change actually performed on the utterance data as an action. In FIG. 6, as an example of action ID: A001, “this week → this time” replaces the word “this week” with a similar word “this time”, and “weekend → Saturday, Sunday” changes the word “weekend” to “ It shows that the words are replaced with similar words (words having similar meanings) such as “Saturday and Sunday”.
ここで、「周」の「shu」の発音は擦過音であり、高い周波数の成分が含まれるため、高い周波数が聞き取り難いユーザに対しては、擦過音を含まない類似単語に置き換える必要がある。また、高い周波数が聞き取り難いユーザに対しては、破裂音を含む単語も高い周波数を含むことになるので、擦過音の場合と同様に、破裂音を含まない類似単語に置き換える必要がある。 Here, the pronunciation of “shu” in “surround” is a rubbing sound and includes a high frequency component. Therefore, for a user who cannot easily hear a high frequency, it is necessary to replace it with a similar word that does not include the rubbing sound. . In addition, for users who are difficult to hear high frequencies, words containing plosives also contain high frequencies, so it is necessary to replace them with similar words that do not contain plosives, as in the case of scratching sounds.
また、アクションID:A003の例としては、「速度:−」が、発話の読み上げ速度を低下させた処理を示している。また、アクションID:A004の例としては、「区切り箇所:+」が、発話データにおける文節の間に所定の時間を設け、すなわち読み上げる際に一つの文節を読み上げた後に、所定の時間(間)を置いて次の文節を読み上げる頻度を増加させることを示している。
メッセージIDは、同一のレコードにおける、アクションが行われたメッセージを指し示す識別情報であり、図3におけるメッセージID1と同一の識別情報である。
Further, as an example of the action ID: A003, “speed: −” indicates a process in which the utterance reading speed is reduced. Further, as an example of the action ID: A004, “delimiter: +” provides a predetermined time between phrases in the utterance data, that is, a predetermined time (interval) after reading one phrase when reading out. To increase the frequency of reading the next phrase.
The message ID is identification information indicating the message in which the action is performed in the same record, and is the same identification information as the
図7は、図6に示したアクションにおける単語の置き換えの処理を説明する概念図である。図7においは、話者であるユーザ及びユーザ端末11の各々が発話する音声を、文字データとして可視化して説明する。
図7(a)は、システム主導のアクションとしての単語の置き換えを示している。ユーザ301がユーザ端末11に対して音声により、ユーザが吹き出し(speech balloon)351の「○○は?」というリクエスト(質問)をした際、情報提示サーバ10が吹き出し451の「今週の土曜日…」という発話データをレスポンスとして回答する。このとき、聴取志向管理部1032は、ユーザ301に対応した聴取志向推定モデルを参照しているが、このユーザ301に対して、上記発話データに対して変更の処理を行うことが記載されていないため、対話処理部102が供給する発話データをそのままレスポンス(回答)としている。
FIG. 7 is a conceptual diagram illustrating word replacement processing in the action shown in FIG. In FIG. 7, the speech uttered by each of the user who is a speaker and the
FIG. 7A shows word replacement as a system-led action. When the
一方、ユーザ302がユーザ端末11に対して音声により、吹き出し351の「○○は?」というリクエスト(質問)をした際、情報提示サーバ10が上記吹き出し451の「今週の土曜日…」という発話データを、吹き出し452の「今度の土曜日…」と変更した後にレスポンスとして回答する。このとき、聴取志向管理部1032は、ユーザ301に対応した聴取志向推定モデルを参照し、このユーザ302に対して、上記発話データに対して変更の処理を行うことが記載されているため、対話処理部102が供給する発話データを、聴取志向推定モデルに対応して変更処理を行っている。
すなわち、属性情報において、ユーザ301(例えば、年齢20代)に比較してユーザ302(例えば、年齢70代)の年齢が高く、ユーザ302は周波数が低い音声の方が聞き易いため、聴取志向推定モデルには破裂音や擦過音を含む単語の置き換えの処理が設定されている。
On the other hand, when the
That is, in the attribute information, the user 302 (for example, age 70s) is higher in age than the user 301 (for example, age 20s), and the
図7(b)は、ユーザ主導のアクションとしての単語の置き換えを示している。図示はしていないが、ユーザ303(例えば、年齢70代)がユーザ端末11に対して音声による「○○は?」というリクエスト(質問)をした際、情報提示サーバ10が上記吹き出し453の「今週の土曜日…」という、対話処理部102が供給する発話データをそのままレスポンス(回答)としている。しかしながら、「今週の土曜日…」の音声に対して、ユーザ303が吹き出し353の「えっ?/もう一度」という、聴取志向フレーズのリクエスト(要求)が入力される。
FIG. 7B shows word replacement as a user-initiated action. Although not shown, when the user 303 (for example, age 70's) makes a request (question) by voice to the
このため、聴取志向管理部1032は、ユーザ301に対応した聴取志向推定モデルを参照し、このユーザ302に対して、上記聴取志向フレーズに対応して、対話処理部102が供給する発話データに変更処理を行っている。これにより、情報提示サーバ10は、発話データの吹き出し453の「今週の土曜日…」が、吹き出し454の「今度の土曜日…」に変更された音声のデータをユーザ端末11に対して再度出力する。
Therefore, the listening
図8は、グルーピング記憶部110に記憶されているグルーピングテーブルの構成例を示す図である。図8(a)は、グループの属性情報を示すグループ属性情報テーブルの構成例を示している。図8(a)において、グループ属性情報テーブルは、一例として、レコード毎に対して、グループID、年代、性別及び居住地などの項目の欄が設けられている。グループIDは、グループの各々を識別するための識別情報である。年代は、グループを構成するユーザの年齢の範囲を示している。
FIG. 8 is a diagram illustrating a configuration example of a grouping table stored in the
例えば、グループID:G_001は、少なくとも年齢が60歳から75歳までの範囲に含まれるユーザの集合体であることを示している。同様に、グループID:G_002は、少なくとも年齢が10歳から20歳までの範囲に含まれるユーザの集合体であることを示している。性別は、対応するグループIDで識別されるグループを構成する人間の性別が男性(male)か女性(female)であるかを示している。居住地は、対応するグループIDで識別されるグループを構成するユーザの居住地がいずれの地方であるかを示している。
また、このグループIDで識別されるグループ毎には、それぞれのグループを構成するユーザの上述した属性に対応する聴取志向テンプレートモデルがグルーピング記憶部110に対して予め書き込まれて記憶されている。
For example, the group ID: G — 001 indicates that the user is a collection of users included at least in the range of 60 to 75 years old. Similarly, the group ID: G — 002 indicates that it is a collection of users that are at least in the range of 10 to 20 years old. The gender indicates whether the human gender constituting the group identified by the corresponding group ID is male or female. The residence indicates which region the residence of the user constituting the group identified by the corresponding group ID is.
Further, for each group identified by this group ID, a listening-oriented template model corresponding to the above-described attributes of the users constituting each group is written and stored in the
図8(b)は、グループIDの各々に属すユーザが割り当てられているグルーピングテーブルの構成例を示している。各レコードには、グループID、ユーザID、年齢、性別、音量、読み上げ速度、区切り、設置環境の各々の欄が設けられている。グループIDは、グループの各々を識別するための識別情報である。ユーザIDは、同一レコードにおけるグループIDの示すグループに分類されたユーザを示す識別情報であり、図5におけるユーザ属性テーブルのユーザIDと同一の識別情報である。 FIG. 8B shows a configuration example of a grouping table to which users belonging to each group ID are assigned. Each record has columns for group ID, user ID, age, gender, volume, reading speed, separation, and installation environment. The group ID is identification information for identifying each group. The user ID is identification information indicating users classified into the group indicated by the group ID in the same record, and is the same identification information as the user ID of the user attribute table in FIG.
また、年齢は、対応するユーザIDで識別されるユーザの年齢を示している。性別は、対応するユーザIDで識別されるユーザが男性(male)か女性(female)であるかを示している。ここで、性別がグルーピングにおける属性に含まれていない場合、そのグループは男性(male)か女性(female)の双方のユーザが存在する。 The age indicates the age of the user identified by the corresponding user ID. The gender indicates whether the user identified by the corresponding user ID is male or female. Here, when the gender is not included in the attribute in the grouping, there are both male and female users in the group.
また、音量は、対応するユーザIDで識別されるユーザが、聞き取り易い(聞き取りが可能な)とする音声の音量のレベル(大、中、小)を示している。読み上げ速度は、対応するユーザIDで識別されるユーザが、発話として聞き取り易いとする音声の速度のレベル(早い、普通、遅い)を示している。区切りは、対応するユーザIDで識別されるユーザが、聞き取り易いとする発音する文節の区切りを設ける数の量(多い、普通、少ない)を示している。 The volume indicates the volume level (large, medium, or small) of the sound that the user identified by the corresponding user ID is easy to hear (can be heard). The reading speed indicates a voice speed level (fast, normal, or slow) that the user identified by the corresponding user ID can easily hear as an utterance. The delimiter indicates the amount (large, normal, small) of the number of phrases that are pronounced by the user identified by the corresponding user ID.
また、設置環境は、ユーザ端末11が設置されている場所、すなわち音声を聞き取る際の環境が、部屋が広くて音声が伝搬し易いか、部屋が小さくて反響し易いか、他の音が混入する可能性が低いか、他の音が混入する可能性が高いかなどのユーザの音声の聞き取り環境を示している。
In addition, the installation environment is the place where the
上述したように、グループの各々は、グルーピングテーブルにおいて規定されているグループの属性(グループ属性)と同様の属性を有するユーザが分類されている。
そして、上述したグルーピングにおける属性の種類は、人間の音声の聞き取り易さに詳しい学者や医者、あるいは介護施設の職員(看護師や介護士など)の聴取志向に詳しい識者の提示する属性の種類を用いても良い。
また、グルーピングにおける属性の種類は、複数のユーザの属性を特徴量としてクラスタリングなどの処理を行い、最も明確にユーザ動詞を分類できる特徴量の属性の種類を抽出する処理により設定しても良い。
As described above, in each group, users having the same attributes as the group attributes (group attributes) defined in the grouping table are classified.
The types of attributes in the above-mentioned grouping are the types of attributes presented by scholars and doctors who are familiar with human speech audibility, or experts who are familiar with listening orientations of nursing facility staff (such as nurses and caregivers). It may be used.
Further, the attribute type in the grouping may be set by performing a process such as clustering using the attributes of a plurality of users as the feature amount and extracting the attribute type of the feature amount that can most clearly classify the user verb.
上述したいずれの処理により、グルーピングに用いる属性の種類を抽出したとしても、上記識者の治験に対応して、聴取志向テンプレートモデルの聴取志向における音量、読み上げ速度及び区切りなどのパラメータの変更の要否、変更する際のそれぞれのパラメータの調整量を設定しても良い。
本実施形態における情報提示サーバ10の利用を開始した直後のユーザに対し、情報提示サーバ10が上述した聴取志向のパラメータの変更の要否や、変更する際のパラメータの調整量のデータを、音声に対する聴取志向に対するユーザの対応から十分に抽出できていない。
Even if the type of attribute used for grouping is extracted by any of the above-mentioned processes, it is necessary to change parameters such as volume, reading speed, and division in the listening orientation of the listening-oriented template model in accordance with the clinical trial of the expert. The adjustment amount of each parameter when changing may be set.
For the user immediately after starting the use of the
このため、聴取志向推定部103は、聴取志向のパラメータのデータが十分に抽出できていないユーザに対し、このユーザの属性に近いグループを上記グルーピングテーブルにおいて検索し、検索して得られたグループの聴取志向テンプレートモデルを用いて、聴取志向のパラメータの要否あるいはパラメータの変更量を推定する。
そして、聴取志向推定部103は、ユーザの属性に用いた聴取志向テンプレートモデルを元に、聴取志向における各パラメータの変更の要否及び変更の際の調整量のデータを、ユーザからの音声に対する変更の要求から取得して、ユーザの各々の聴取志向推定モデルとする処理を行う。このとき、聴取志向推定部103は、すでに述べたように、聴取志向テンプレートモデルに対して、機械学習による最適化の処理を行うことで聴取志向推定モデルを生成しても良い。
For this reason, the listening
Based on the listening orientation template model used for the user's attributes, the listening
図9は、本実施形態の情報提示システムを用いた対話システムの動作例を示すフローチャートである。この図9のフローチャートの動作は、例えば、情報提示システム1における情報提示サーバ10に対してアクセスし、ユーザがスマートスピーカなどのユーザ端末11から音声によるリクエストを音声により情報提示サーバ10送信して、情報提示サーバ10との対話を行う際に開始される。以下の図9のフローチャートの動作説明は、グループ毎の聴取志向に対応した聴取志向テンプレートモデルの各々が、聴取志向推定部103において、すでに説明したように生成されて、グルーピング記憶部110に蓄積されている状態において行う。
FIG. 9 is a flowchart showing an operation example of the dialogue system using the information presentation system of the present embodiment. The operation of the flowchart of FIG. 9 is performed by, for example, accessing the
ステップS101:
データ入出力部101は、いずれかのユーザ端末11から音声データが供給されたか否かの判定を行う。そして、データ入出力部101は、いずれかのユーザ端末11から音声データが供給された場合、処理をステップS2へ進める。一方、データ入出力部101は、いずれのユーザ端末11からも音声データが供給されない場合、ステップS101の処理を繰り返す。
Step S101:
The data input /
このとき、例えば、ユーザがユーザ端末11に対して音声により、コンサート等が行われる日などの予定を問い合わせるリクエストを入力する。そして、ユーザ端末11は、音声データとこの音声を入力したユーザのユーザIDとの各々を、情報提示サーバ10にアクセスして送信する。この場合、データ入出力部101は、いずれかのユーザ端末11から音声データが供給されたことを検出し、処理をステップS102へ進める。
そして、ステップS102に進める際、データ入出力部101は、入力した音声データを対話処理部102に対して出力する。また、データ入出力部101は、入力したユーザIDを聴取志向推定部103に対して出力する。
At this time, for example, the user inputs a request for inquiring of the schedule such as a concert or the like to the
Then, when proceeding to step S102, the data input /
ステップS102:
聴取志向推定部103は、データ入出力部101からユーザIDが供給された場合、このユーザIDの示すユーザに対話の履歴があるか否かの判定を行う。すなわち、聴取志向推定部103は、ユーザ属性記憶部108を参照して、このユーザIDに対応して聴取志向推定モデルが記憶されているか否かの判定を行う。すなわち、ユーザに対話の履歴が無ければ、聴取志向テンプレートモデルから聴取志向推定モデルが生成されていない。
このとき、聴取志向推定部103は、ユーザ属性記憶部108にユーザに対応する聴取志向推定モデルが記憶されている場合、処理をステップS103へ進める。一方、聴取志向推定部103は、ユーザ属性記憶部108にユーザに対応する聴取志向推定モデルが記憶されていない場合、処理をステップS104へ進める。
Step S102:
When the user ID is supplied from the data input /
At this time, when the listening
ステップS103:
聴取志向推定部103は、ユーザ属性記憶部108からユーザIDに対応する聴取志向推定モデルを読み出す。
Step S103:
The listening
ステップS104:
聴取志向推定部103は、ユーザ属性記憶部108を参照し、ユーザIDに対応したユーザの属性情報を読み出す。
そして、聴取志向推定部103は、読み出した属性情報に近い属性情報を有するグループをグルーピング記憶部110のグループ属性情報テーブルから検索し、検索して得られたグループの聴取志向テンプレートモデルを読み出す。
また、グルーピング推定部106は、グルーピング記憶部110において、上記ユーザを検索したグループのグループテーブルに追加して書き込んで記憶させる。
Step S104:
The listening
Then, the listening
Further, the grouping
ステップS105:
対話処理部102は、音声データをテキストデータに変換し、形態素解析を行って、得られた単語あるいは文節から、この音声データが会話フレーズであるか、あるいは聴取志向フレーズであるかの判定を行う。音声データが聴取志向フレーズであるということは、ユーザが発話データ(レスポンス)の音声の最適化(自身の聴取志向に合わせる変更)を要求していることを意味している。
Step S105:
The
したがって、対話処理部102は、このステップS105において、ユーザが発話データの音声の最適化を要求しているか否かの判定を行っている。
そして、対話処理部102は、ユーザが発話データの音声の最適化を要求していない場合、処理をステップS106へ進める。一方、対話処理部102は、ユーザが発話データの音声の最適化を要求している場合、処理をステップS107へ進める。
このとき、対話処理部102は、対話履歴記憶部107における対話履歴テーブルに対し、入力された音声データのテキストデータ、聴取志向フレーズの場合に聴取志向フレーズのフラグ、メッセージIDの各々の書き込みを行う。
Therefore, the
Then, when the user does not request the optimization of the speech data, the
At this time, the
ステップS106:
入力された音声データが会話フレーズであるため、対話処理部102は、このリクエストの音声データに対応した発話データの生成を、音声データのテキスト文を形態素解析した単語の各々を用いて行う。
そして、聴取志向推定部103は、聴取志向推定モデルあるいは聴取志向テンプレートモデルにより、システム主導の発話データに対する変更処理の推定、ずなわち、ユーザの聴取志向のパラメータのなかから変更対象のパラメータと、変更量(あるいは単語の置き換え)を推定する。
また、聴取志向推定部103は、聴取志向のパラメータのなかから選択した変更対象のパラメータと、このパラメータの変更量(あるいは置き換える単語)とを、提示制御部104に対して出力する。
Step S106:
Since the input voice data is a conversation phrase, the
Then, the listening
The listening
ステップS107:
入力された音声データが聴取志向フレーズであるため、この時点においては、このフローチャートにおける前回の会話フレーズのループにおいて、リクエストに対するレスポンスとしての会話フレーズはすでに得られている。
このため、聴取志向推定部103は、聴取志向推定モデルあるいは聴取志向テンプレートモデルにより、聴取志向のパラメータのなかから変更対象のパラメータと、このパラメータの変更量を調整して、提示制御部104に対して出力する。
Step S107:
Since the input voice data is a listening-oriented phrase, at this point, the conversation phrase as a response to the request has already been obtained in the previous conversation phrase loop in this flowchart.
For this reason, the listening
このとき、聴取志向推定部103は、対話行動記憶部109の対話行動テーブルに対して、単語の置き換えを行った処理を書き込んで記憶させる。このとき、聴取志向推定部103は、アクションタイプとしてシステム主導で行ったか、あるいはユーザ主導で行ったかのいずれかを記載する。また、聴取志向推定部103は、予め行動の各々に付されているアクションIDを記載し、アクションIDに対応した実施内容を記載する(記載例としては図6の対話行動テーブルを参照)。実施内容が単語の置き換え(アクションID:A001)の場合、提示制御部104がどの単語をどのような単語に置き換えたかを、対話行動テーブルの実施内容の欄に記載する。
At this time, the listening
ここで、例えば、変更対象のパラメータが音量である場合、予め通常の音量からの変更量と規定されている大きさに対して、より大きい音量を変更量とする(変更量の調整)。また、変更対象のパラメータが読み上げ速度である場合、予め通常の読み上げ速度からの変更量と規定されている遅い速度に対して、より遅い速度を変更量とする。また、変更対象のパラメータが区切りである場合、予め通常の区切りの頻度からの変更量と規定されている区切りの頻度に対して、より多くの区切りの頻度を変更量とする。
また、このパラメータの各々は、一括して変更量を変更してもよいし、フローチャートのループが繰り返される毎に、変更する順番を決めておいて、変更量の調整を行っても良い。
Here, for example, when the parameter to be changed is a volume, a larger volume is set as a change amount (adjustment of the change amount) with respect to a size that is previously defined as a change amount from the normal volume. In addition, when the parameter to be changed is the reading speed, the slower speed is set as the changing amount with respect to the slow speed defined as the changing amount from the normal reading speed in advance. In addition, when the parameter to be changed is a delimiter, a larger delimiter frequency is set as the change amount than the delimiter frequency defined in advance as the amount of change from the normal delimiter frequency.
In addition, the amount of change for each of these parameters may be changed collectively, or the amount of change may be adjusted by determining the order of change each time the flowchart loop is repeated.
ステップS108:
提示制御部104は、聴取志向推定部103から供給される聴取志向における単語の置き換え処理の要求に対応し、発話データのテキストデータに含まれる擦過音及び破裂音を有する単語の各々を抽出する。そして、提示制御部104は、抽出した単語の各々に対応した置き換える単語を、言語知識記憶部111の置き換えテーブルを参照して、それぞれ抽出する。
そして、提示制御部104は、聞き取りやすい単語への置き換えを終了した発話データを、聴取志向のパラメータとそのパラメータの変更量との各々を、音声合成部105に対して出力する。
Step S108:
In response to the request for word replacement processing in the listening orientation supplied from the listening
Then, the
音声合成部105は、提示制御部104から供給される発話データを、変更するパラメータと、このパラメータの調整量に対応して、発話データのテキストデータを音声合成により、ユーザに対するレスポンスとしての音声コンテンツを生成する。
そして、音声合成部105は、音声合成により生成した音声コンテンツを、データ入出力部101を介して、ユーザ端末11に対して出力する。
The
Then, the
ステップS109:
聴取志向推定部103は、対話行動記憶部109の対話行動テーブルにおけるメッセージIDを参照し、このメッセージIDに連続するメッセージIDを対話履歴記憶部107の対話履歴テーブルから抽出する。
そして、聴取志向推定部103は、抽出したメッセージに対応するメッセージ本文の聴取志向フレーズフラグが「0」である場合に、聴取志向のパラメータの変更あるいは単語の置き換えが成功したと判定する。一方、聴取志向推定部103は、抽出したメッセージに対応するメッセージ本文の聴取志向フレーズフラグが「1」である場合に、聴取志向のパラメータの変更あるいは単語の置き換えが、聞き取り易さを向上させるために不十分であると判定する。
Step S109:
The listening
Then, when the listening-oriented phrase flag of the message body corresponding to the extracted message is “0”, the listening-oriented
聴取志向推定部103は、例えば、上述した聴取志向フレーズフラグが「1」であり、かつユーザ主導により変更した聴取志向におけるパラメータと、このパラメータの変更量とにより、ユーザに対応する聴取志向推定モデルを、よりユーザの聴取志向に適合させる修正処理を行う。
また、聴取志向推定部103は、グルーピング記憶部110のグループテーブルを参照し、グループを構成するユーザの各々に共通する変更された聴取志向におけるパラメータと、パラメータの変更量とを抽出し、聴取志向テンプレートモデルを、よりグループに含まれるユーザの聴取志向に適合させる修正処理を行う。
The listening
Further, the listening
このとき、聴取志向推定部103は、例えば、聴取志向フレーズフラグが立っているメッセージIDに対応するメッセージ本文の形態素解析を行い、ポジティブワードあるいはネガティブワードを抽出し、ポジティブワードの場合、変更に対する評価値に「1」を加算(評価値をインクリメント)する処理を行い、一方、ネガティブワードの場合、変更に対する評価値から「1」を減算(評価値をディクリメント)する処理を行う。そして、聴取志向推定部103は、評価値が所定の閾値を超えた場合、変更した聴取志向のパラメータの変更量(あるいは置き換えた単語)を、聴取志向推定モデル及び聴取志向テンプレートモデルに反映させるように構成しても良い。
At this time, the listening
また、聴取志向推定部103は、例えば、ネガティブワードやポジティブワードの抽出を行うのではなく、聴取志向のパラメータを変更して音声コンテンツを出力した後に、「聞き取り易かったですか? 「はい」/「いいえ」でお答え下さい」や、「もう少しゆっくり読み上げましょうか? 「このまま」/「ゆっくり」でお答え下さい」のテキストデータを、音声合成部105により音声合成して確認音声コンテンツに変更する。また、聴取志向推定部103は、この確認音声コンテンツをユーザ端末11に対してデータ入出力部101を介して送信する。このアルゴリズムは、ユーザ主導の聴取志向のパラメータの変更に対応している。
Also, the listening
そして、聴取志向推定部103は、上述した確認音声コンテンツに対するユーザの回答を入力する。このとき、聴取志向推定部103は、対話処理部102がユーザによる回答の音声データをテキスト変換した回答データを入力する。
そして、聴取志向推定部103は、例えば、「聞き取り易かったですか?」の質問に対する回答データが「はい」の場合、聴取志向のパラメータの変更が成功したと判定する。一方、「聞き取り易かったですか?」の質問に対する回答データが「いいえ」の場合、聴取志向のパラメータの変更が成功しなかったと判定する。
Then, the listening
Then, for example, when the answer data to the question “Is it easy to hear?” Is “Yes”, the listening
これにより、聴取志向推定部103は、成功した場合に成功した聴取志向のパラメータの変更処理を、聴取志向推定モデル及び聴取志向テンプレートモデルに反映させる。
一方、聴取志向推定部103は、変更が失敗した場合、再度、聴取志向の他のパラメータの変更を行った音声コンテンツを生成して、ユーザに対してレスポンスとして出力する。
As a result, the listening
On the other hand, if the change is unsuccessful, the listening
また、聴取志向推定部103は、例えば、「もう少しゆっくり読み上げましょうか?」の質問に対する回答データが「このまま」の場合、聴取志向のパラメータである読み上げ速度の変更が成功したと判定する。一方、「もう少しゆっくり読み上げましょうか?」の質問に対する回答データが「ゆっくり」の場合、聴取志向のパラメータである読み上げ速度の変更量が少ないため成功しなかったと判定する。
これにより、聴取志向推定部103は、成功した場合に成功した聴取志向のパラメータである読み上げ速度の変更処理を、聴取志向推定モデル及び聴取志向テンプレートモデルに反映させる。
Further, for example, when the answer data to the question “Let's read a little more slowly?” Is “No change”, the listening
Thus, the listening
一方、聴取志向推定部103は、変更が失敗した場合、再度、聴取志向のパラメータである読み上げ速度の変更量を増加させ、すなわちより読み上げ速度を低下させる変更を行った音声コンテンツを生成して、ユーザに対してレスポンスとして出力する。
上述したように、聴取志向のパラメータである周波数、読み上げ速度及び区切りや単語の置き換えなどの変更を行った後に、それぞれの変更が適切であったか否かの質問をユーザに与え、聴取志向のパラメータの変更の成功/不成功の確認を行い、この確認結果を聴取志向推定モデル及び聴取志向テンプレートモデルに反映させる構成としても良い。
On the other hand, when the change is unsuccessful, the listening
As described above, after making changes such as listening-oriented parameters such as frequency, reading speed, break and word replacement, the user is asked whether each change is appropriate, and listening-oriented parameters A configuration may be adopted in which the success / failure of the change is confirmed, and the confirmation result is reflected in the listening orientation estimation model and the listening orientation template model.
また、聴取志向推定部103は、聴取志向フレーズフラグが「1」となる発生頻度をカウントし、同様の聴取志向のパラメータの変更を行う発生頻度のカウント数が所定の設定値を超えた場合に、発生頻度が所定の設定値を超えたパラメータに基づき、このパラメータ及びパラメータの変更量を、聴取志向推定モデル及び聴取志向テンプレートモデルに反映させるように構成しても良い。
In addition, the listening
ステップS110:
提示制御部104は、対話履歴記憶部107の対話履歴テーブルに対して、発話データのテキストデータを、メッセージ本文に書き込んでメッセージID1を付与して書き込んで記憶させる。このとき、提示制御部104は、話者IDの欄に対して、レスポンスを行うシステムのシステム識別情報を書き込んで記憶させる。
また、提示制御部104は、会話フレーズであるため、聴取志向フレーズフラグを「0」とし、かつ接続されるユーザの音声データのメッセージ本文のメッセージID1をメッセージID2の欄に書き込んで記憶させる。
Step S110:
The
Since the
上述した構成及び動作により、本実施形態によれば、ユーザのリクエストに対して、レスポンスを行う情報提示サーバ10が音声コンテンツにより提供する情報を、ユーザの各々が正確に聞き取ることができるように聴取志向の推定を、ユーザ毎の聴取志向推定モデルまたはグループ毎の聴取志向テンプレートモデルを用いて行うため、従来のようにルールベースで各ユーザあるいは各グループに対して聴取志向の推定を行う構成に比較してデータ量を少なくすることができ、かつデータ量が少ないために聴取志向推定モデル及び聴取志向テンプレートモデルの各々のメンテンス(ユーザに順次対応させていく修正処理)を容易に行うことができる。
With the above-described configuration and operation, according to the present embodiment, the
また、本実施形態によれば、ユーザの各々の属性情報に対応した聴取志向推定モデルにより、ユーザの聴取志向における聞き取り易さを向上するパラメータの種類と、これらパラメータの変更量(調整量)とが求められ、ユーザのリクエストに対するレスポンスである発話データにおける擦過音あるいは破裂音を含む単語を抽出し、発話データの文脈に対応して同義語(あるいは類義語、類語)である擦過音及び破裂音を含まない他の単語に置き換えるため、発話データを音声合成した音声コンテンツを、ユーザが聞き取り易い音声とすることができる。 In addition, according to the present embodiment, by the listening orientation estimation model corresponding to each attribute information of the user, the types of parameters that improve the ease of listening in the listening orientation of the user, and the amount of change (adjustment amount) of these parameters, And a word including a fuzzing sound or a plosive sound in the utterance data that is a response to the user's request is extracted, and a fretting sound and a plosive sound that are synonyms (or synonyms or synonyms) are extracted corresponding to the context of the utterance data. Since it is replaced with another word that is not included, the voice content obtained by voice synthesis of the utterance data can be made easy to hear by the user.
また、本実施形態によれば、ユーザの各々の属性情報に対応した聴取志向推定モデルにより、ユーザの聴取志向における聞き取り易さを向上するパラメータの種類と、これらパラメータの変更量(調整量)とが求められ、ユーザのリクエストに対するレスポンスである発話データを音声合成する際、発話される音声の周波数、読み上げ速度、区切りなどの変更を行うため、音声合成された発話データである音声コンテンツを、ユーザが聞き取り易い状態の音声とすることができる。 In addition, according to the present embodiment, by the listening orientation estimation model corresponding to each attribute information of the user, the types of parameters that improve the ease of listening in the listening orientation of the user, and the amount of change (adjustment amount) of these parameters, When speech synthesis is performed on speech data that is a response to a user request, the speech content that is speech synthesized speech is changed to the user in order to change the frequency of speech to be spoken, the reading speed, and the segmentation. Can be easily heard.
また、本実施形態によれば、対話の履歴が無いユーザに対して、このユーザと属性情報が類似している他のユーザにより構成されるグループに対応して生成された聴取志向テンプレートモデルを用い、上述した発話データにおける擦過音あるいは破裂音を含む単語を、発話データの文脈に対応して同義語である擦過音及び破裂音を含まない他の単語に置き換えるため、発話データを音声合成した音声コンテンツを、ユーザが聞き取り易い音声とするため、履歴の無いユーザに対しても、レスポンスの音声コンテンツの聞き取り易さを向上させることができる。 In addition, according to the present embodiment, for a user who has no conversation history, a listening-oriented template model generated corresponding to a group composed of other users whose attribute information is similar to this user is used. Speech that is synthesized from speech data in order to replace a word containing a fuzzing sound or a plosive sound in the utterance data described above with another word that does not contain a fuzzing sound and a plosive sound that are synonyms corresponding to the context of the utterance data. Since the content is a voice that can be easily heard by the user, it is possible to improve the ease of listening to the voice content of the response even for a user who has no history.
また、本実施形態によれば、対話の履歴が無いユーザに対して、このユーザと属性情報が類似している他のユーザにより構成されるグループに対応して生成された聴取志向テンプレートモデルを用い、ユーザのリクエストに対するレスポンスである発話データを音声合成する際、発話される音声の周波数、読み上げ速度、区切りなどの変更を行うため、音声合成された発話データである音声コンテンツを、ユーザが聞き取り易い状態の音声とするため、履歴の無いユーザに対しても、レスポンスの音声コンテンツの聞き取り易さを向上させることができる。 In addition, according to the present embodiment, for a user who has no conversation history, a listening-oriented template model generated corresponding to a group composed of other users whose attribute information is similar to this user is used. When speech data that is a response to a user's request is synthesized, the frequency of the speech that is spoken, the reading speed, and the segmentation are changed, so that the user can easily hear the audio content that is the synthesized speech data. Since the voice of the state is used, it is possible to improve the ease of listening to the voice content of the response even for a user who has no history.
また、本実施形態によれば、上記聴取志向推定モデル及び聴取志向テンプレートモデルの各々を、対話履歴記憶部107及び対話行動記憶部109に記憶されている、リクエスト側(ユーザ)とレスポンス側(情報提示サーバ10)との対話における履歴の各データを用いて順次変更を行うため、ユーザあるいはグループの属性情報に対応した音声の聞き取り易さを向上させていくことができる。
Further, according to the present embodiment, each of the listening orientation estimation model and the listening orientation template model is stored in the dialogue
本実施形態においては、レスポンス側をコンピュータの対話システムとして説明したが、リクエスト側とレスポンス側との各々がユーザ(人間)である場合、対話するユーザ間における相互の聞き取り易さを向上するように、ユーザそれぞれに対応した聴取志向推定モデルにより、対話におけるレスポンス側の発話データにおける単語の置き換えの処理、及び音声合成の際の聞き取り易さを向上するパラメータの変更処理を行う構成としても良い。 In this embodiment, the response side has been described as a computer dialogue system. However, when each of the request side and the response side is a user (human), the mutual hearing between the interacting users is improved. In addition, a configuration may be used in which a process for replacing words in the utterance data on the response side in the dialogue and a parameter changing process for improving the ease of listening at the time of speech synthesis are performed by a listening orientation estimation model corresponding to each user.
また、図10は、本発明の一実施形態による、ユーザとシステムとが対話を行う情報提示システムの他の構成例を示す概念図である。
情報提示システム1Aは、情報提示サーバ10A、ユーザ端末11_1、ユーザ端末11_2、ユーザ端末11_3、ユーザ端末11_4、対話サーバ12_1、対話サーバ12_2、対話サーバ12_3、対話サーバ12_3の各々がネットワーク500を介して接続されている。
ユーザ端末11_1及びユーザ端末11_2の各々は、すでに説明したスマートスピーカなどであり、ユーザが音声によってリクエストの入力を行い、情報提示サーバ10Aからのレスポンスを音声コンテンツとしてユーザに通知する。
FIG. 10 is a conceptual diagram showing another configuration example of the information presentation system in which the user and the system interact with each other according to the embodiment of the present invention.
The
Each of the user terminal 11_1 and the user terminal 11_2 is the smart speaker already described, and the user inputs a request by voice and notifies the user of the response from the
一方、ユーザ端末11_3はスマートフォンやタブレットコンピュータなどの携帯端末であり、表示画面が備えられている。また、ユーザ端末11_4は、パーソナルコンピュータであり、表示画面が設けられている。
情報提示サーバ10Aは、表示画面を備えているユーザ端末11_3及びユーザ端末11_4の各々に対しては、音声コンテンツではなく、視覚(ビジュアル)的に視認できる画像コンテンツ(文字コンテンツ、動画像あるいはスタンプ画像など)に変更して(出力を切替えて)、リクエストに対するレスポンスとして出力するように構成しても良い。
On the other hand, the user terminal 11_3 is a mobile terminal such as a smartphone or a tablet computer, and is provided with a display screen. The user terminal 11_4 is a personal computer and is provided with a display screen.
For each of the user terminal 11_3 and the user terminal 11_4 having a display screen, the
また、情報提示サーバ10Aは、すでに説明した図1における情報提示サーバ10と同様の構成であるが、対話処理部102における対話システムの機能を有していない構成である。
対話サーバ12_2、対話サーバ12_3及び対話サーバ12_3の各々は、情報提示サーバ10における対話処理部102の対話システムの機能に換わる装置である。対話サーバ12_2、対話サーバ12_3及び対話サーバ12_3の各々は、例えば、天気予報確認、交通機関の時刻確認、ユーザの計画の確認それぞれを行う対話システムである。
The
Each of the dialogue server 12_2, the dialogue server 12_3, and the dialogue server 12_3 is a device that replaces the function of the dialogue system of the
この構成の場合、情報提示サーバ10Aは、対話サーバ12_2、対話サーバ12_3及び対話サーバ12_3の各々から、発話データとしてのレスポンスのテキストデータを入力し、すでに述べたように、発話データを音声コンテンツとした際における聞き取り易さを向上する変更を行う。
In the case of this configuration, the
なお、本発明における図1の情報提示サーバ10及び図10の情報提示サーバ10Aの各々の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより音声コンテンツをユーザがより聞き取り易いように変更する処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
In the present invention, a program for realizing the functions of the
また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。 The “computer system” includes a WWW system having a homepage providing environment (or display environment). The “computer-readable recording medium” refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, and a CD-ROM, and a storage device such as a hard disk built in the computer system. Further, the “computer-readable recording medium” refers to a volatile memory (RAM) in a computer system that becomes a server or a client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. In addition, those holding programs for a certain period of time are also included.
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。 The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, and what is called a difference file (difference program) may be sufficient.
また、上記プログラムは、図1に記載のシステムおよびプログラムについて、対話サーバ12を含む情報提示サーバ10とユーザ端末11がネットワークを介して伝送を実現している。しかしながら、これに限らずに、例えば、可能であればネットワークを介することなくユーザ端末11に対話サーバ12を含む情報提示サーバ10の機能が搭載されていてもよい。
また、情報提示サーバ10と対話サーバ12との各々が独立した装置として設ける構成ではなく、情報提示サーバ10、対話サーバ12のそれぞれの機能を、1つのサーバによって実現する構成としても良い。
Moreover, the
Moreover, it is good also as a structure which implement | achieves each function of the
1,1A…情報提示システム
10,10A…情報提示サーバ
11,11_1,11_2,11_3,11_4…ユーザ端末
12_1,12_2,12_3…対話サーバ
101…データ入出力部
102…対話処理部
103…聴取志向推定部
104…提示制御部
105…音声合成部
106…グルーピング推定部
107…対話履歴記憶部
108…ユーザ属性記憶部
109…対話行動記憶部
110…グルーピング記憶部
111…言語知識記憶部
500…ネットワーク
1021…解析部
1022…対話管理部
1023…生成部
1031…モデル構築部
1032…聴取志向管理部
1023…生成部
DESCRIPTION OF
Claims (10)
前記ユーザ毎に設定されている前記変更モデルに対応し、対話システムからの音声による回答である前記発話データを、前記ユーザの各々の前記聴取志向となるよう変更する提示制御部と
を備えることを特徴とする情報提示システム。 In dialogue with the user, the listening orientation indicating the ease of hearing of each voice of the user is estimated, and utterance data supplied by voice to the user is changed corresponding to the listening preference of the user. A listening orientation estimator for generating and updating a change model;
A presentation control unit that corresponds to the change model set for each user, and that changes the utterance data, which is an answer by voice from a dialogue system, to be the listening-oriented for each of the users. Characteristic information presentation system.
をさらに備える
ことを特徴とする請求項1に記載の情報提示システム。 Rules for utterances from users, which are used when estimating the listening orientation, and that the dialogue history which is the history of the dialogue with each of the users is written and stored for each user in the dialogue history storage unit The information presentation system according to claim 1, further comprising: a dialogue processing unit that determines a response based on the information.
前記ユーザの前記対話における前記発話データに対する評価から、当該ユーザの前記聴取志向を抽出して、前記ユーザの属性情報及び当該ユーザの前記聴取志向を示す志向情報の各々を、ユーザ属性記憶部に対して、前記ユーザ毎に書き込んで記憶させる
ことを特徴とする請求項1または請求項2に記載の情報提示システム。 The listening orientation estimation unit
From the evaluation of the utterance data in the dialog of the user, the user's listening intention is extracted, and each of the attribute information of the user and the intention information indicating the listening intention of the user is stored in the user attribute storage unit. The information presentation system according to claim 1, wherein the information is written and stored for each user.
をさらに備えることを特徴とする請求項3に記載の情報提示システム。 In accordance with the attribute information of each of the users, grouping that classifies each of the users is performed, and a template modification model that is a modification model for each of the classifications according to the listening orientation common to the users included in each classification The information presentation system according to claim 3, further comprising: a grouping estimation unit that generates
前記変更モデルが用意されていない前記ユーザに対して、当該ユーザに対応する前記分類の前記テンプレート変更モデルを抽出し、前記対話において抽出される前記聴取志向に対応して、当該ユーザに対応する前記変更モデルを生成する
ことを特徴とする請求項4に記載の情報提示システム。 The listening orientation estimation unit
For the user for whom the change model is not prepared, the template change model of the classification corresponding to the user is extracted, and corresponding to the listening orientation extracted in the dialogue, the user corresponding to the user is extracted. The information presentation system according to claim 4, wherein a change model is generated.
少なくとも、前記ユーザの年齢、性別、居住地を含むデモグラフィックデータの各々の組み合わせとして設定される
ことを特徴とする請求項3から請求項5のいずれか一項に記載の情報提示システム。 The attribute information is
The information presentation system according to any one of claims 3 to 5, wherein the information presentation system is set as a combination of at least demographic data including age, sex, and residence of the user.
少なくとも、前記対話処理部を介して決定した前記発話データにおける単語の置き換え、前記発話データを読み上げる際の音声の周波数及び速度、文節の区切りを変更する処理を示す
ことを特徴とする請求項1に記載の情報提示システム。 The change model is
The processing for changing at least the replacement of words in the utterance data determined through the dialogue processing unit, the frequency and speed of speech when reading the utterance data, and the division of phrases is shown. Information presentation system described.
前記変更モデルによる前記発話データを変更した内容である変更内容を、対話行動記憶部に対して、変更履歴として書き込んで記憶させ、
前記聴取志向推定部が、
前記対話の履歴と前記変更履歴とにより、前記ユーザの前記聴取志向を抽出する
ことを特徴とする請求項1から請求項7のいずれか一項に記載の情報提示システム。 The presentation control unit
The change content which is the content changed the utterance data by the change model is written and stored as a change history in the dialogue action storage unit,
The listening orientation estimation unit
The information presentation system according to any one of claims 1 to 7, wherein the listening orientation of the user is extracted from the history of the conversation and the change history.
提示制御部が、前記ユーザ毎に設定されている前記変更モデルに対応し、ユーザからの発話に対してルールに基づき応答を決定する対話処理部を介して、対話システムからの音声による回答である前記発話データを、前記ユーザの各々の前記聴取志向となるよう変更する提示制御過程と
を含むことを特徴とする情報提示方法。 The listening orientation estimation unit estimates the listening orientation indicating the ease of hearing of each voice of the user in the dialog with the user, and the speech data supplied to the user by voice is used as the listening orientation of the user. Listening-oriented estimation process for generating and updating a change model that changes in response to
The presentation control unit responds by voice from the dialogue system via the dialogue processing unit that corresponds to the change model set for each user and determines a response to the utterance from the user based on the rule. A presentation control step of changing the utterance data so as to be listening-oriented for each of the users.
ユーザとの対話において、前記ユーザの各々の音声の聞き取り易さを示す聴取志向を推定し、当該ユーザに対して音声により供給される発話データを、前記ユーザの前記聴取志向に対応して変更する変更モデルを生成及び更新する聴取志向推定手段、
前記ユーザ毎に設定されている前記変更モデルに対応し、対話システムからの音声による回答である前記発話データを、前記ユーザの各々の前記聴取志向となるよう変更する提示制御手段
として機能させるためのプログラム。 Computer
In dialogue with the user, the listening orientation indicating the ease of hearing of each voice of the user is estimated, and utterance data supplied by voice to the user is changed corresponding to the listening preference of the user. Listening-oriented estimation means for generating and updating change models,
Corresponding to the change model set for each user, the utterance data, which is an answer by voice from a dialogue system, is made to function as a presentation control means for changing the user to be listening-oriented. program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018106181A JP7180127B2 (en) | 2018-06-01 | 2018-06-01 | Information presentation system, information presentation method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018106181A JP7180127B2 (en) | 2018-06-01 | 2018-06-01 | Information presentation system, information presentation method and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019211909A true JP2019211909A (en) | 2019-12-12 |
JP7180127B2 JP7180127B2 (en) | 2022-11-30 |
Family
ID=68846787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018106181A Active JP7180127B2 (en) | 2018-06-01 | 2018-06-01 | Information presentation system, information presentation method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7180127B2 (en) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6488599A (en) * | 1987-09-30 | 1989-04-03 | Matsushita Electric Ind Co Ltd | Voice synthesizer |
JPH10133852A (en) * | 1996-10-31 | 1998-05-22 | Toshiba Corp | Personal computer, and method for managing voice attribute parameter |
WO2005076258A1 (en) * | 2004-02-03 | 2005-08-18 | Matsushita Electric Industrial Co., Ltd. | User adaptive type device and control method thereof |
JP2009036998A (en) * | 2007-08-01 | 2009-02-19 | Infocom Corp | Interactive method using computer, interactive system, computer program and computer-readable storage medium |
JP2011217018A (en) * | 2010-03-31 | 2011-10-27 | Oki Networks Co Ltd | Voice response apparatus, and program |
JP2013057705A (en) * | 2011-09-07 | 2013-03-28 | Sony Corp | Audio processing apparatus, audio processing method, and audio output apparatus |
JP2015002386A (en) * | 2013-06-13 | 2015-01-05 | 富士通株式会社 | Telephone conversation device, voice change method, and voice change program |
JP2018036320A (en) * | 2016-08-29 | 2018-03-08 | 株式会社テクノリンク | Sound processing method, sound processing device, and program |
-
2018
- 2018-06-01 JP JP2018106181A patent/JP7180127B2/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6488599A (en) * | 1987-09-30 | 1989-04-03 | Matsushita Electric Ind Co Ltd | Voice synthesizer |
JPH10133852A (en) * | 1996-10-31 | 1998-05-22 | Toshiba Corp | Personal computer, and method for managing voice attribute parameter |
WO2005076258A1 (en) * | 2004-02-03 | 2005-08-18 | Matsushita Electric Industrial Co., Ltd. | User adaptive type device and control method thereof |
JP2009036998A (en) * | 2007-08-01 | 2009-02-19 | Infocom Corp | Interactive method using computer, interactive system, computer program and computer-readable storage medium |
JP2011217018A (en) * | 2010-03-31 | 2011-10-27 | Oki Networks Co Ltd | Voice response apparatus, and program |
JP2013057705A (en) * | 2011-09-07 | 2013-03-28 | Sony Corp | Audio processing apparatus, audio processing method, and audio output apparatus |
JP2015002386A (en) * | 2013-06-13 | 2015-01-05 | 富士通株式会社 | Telephone conversation device, voice change method, and voice change program |
JP2018036320A (en) * | 2016-08-29 | 2018-03-08 | 株式会社テクノリンク | Sound processing method, sound processing device, and program |
Also Published As
Publication number | Publication date |
---|---|
JP7180127B2 (en) | 2022-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9053096B2 (en) | Language translation based on speaker-related information | |
Kumah-Crystal et al. | Electronic health record interactions through voice: a review | |
US8170866B2 (en) | System and method for increasing accuracy of searches based on communication network | |
US11915684B2 (en) | Method and electronic device for translating speech signal | |
US20130144619A1 (en) | Enhanced voice conferencing | |
Klaylat et al. | Emotion recognition in Arabic speech | |
JP2017058673A (en) | Dialog processing apparatus and method, and intelligent dialog processing system | |
KR101322486B1 (en) | General dialogue service apparatus and method | |
JP2007148039A (en) | Speech translation device and speech translation method | |
US20230223016A1 (en) | User interface linking analyzed segments of transcripts with extracted key points | |
CN111128175B (en) | Spoken language dialogue management method and system | |
CN111557001B (en) | Method for providing natural language dialogue, computer device and computer readable storage medium | |
da Silva et al. | How do illiterate people interact with an intelligent voice assistant? | |
López-Ludeña et al. | LSESpeak: A spoken language generator for Deaf people | |
US20230334263A1 (en) | Automating follow-up actions from conversations | |
US20230148275A1 (en) | Speech synthesis device and speech synthesis method | |
JP7236669B2 (en) | Speech recognition data processing device, speech recognition data processing system and speech recognition data processing method | |
KR20190083438A (en) | Korean dialogue apparatus | |
US20220101852A1 (en) | Conversation support device, conversation support system, conversation support method, and storage medium | |
JP7180127B2 (en) | Information presentation system, information presentation method and program | |
US20220100959A1 (en) | Conversation support device, conversation support system, conversation support method, and storage medium | |
Wanner et al. | Towards a multimedia knowledge-based agent with social competence and human interaction capabilities | |
KR101890704B1 (en) | Simple message output device using speech recognition and language modeling and Method | |
US11775774B2 (en) | Open input empathy interaction | |
Patel et al. | My Buddy App: Communications between Smart Devices through Voice Assist |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210519 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220316 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220405 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220602 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221018 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221031 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7180127 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |