JP2009186989A - Voice interactive device and voice interactive program - Google Patents
Voice interactive device and voice interactive program Download PDFInfo
- Publication number
- JP2009186989A JP2009186989A JP2008317700A JP2008317700A JP2009186989A JP 2009186989 A JP2009186989 A JP 2009186989A JP 2008317700 A JP2008317700 A JP 2008317700A JP 2008317700 A JP2008317700 A JP 2008317700A JP 2009186989 A JP2009186989 A JP 2009186989A
- Authority
- JP
- Japan
- Prior art keywords
- context
- voice
- attribute
- determined
- determination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Abstract
Description
本発明は、音声対話装置及び音声対話プログラムに関する。より詳細には、本発明は、会話内容が変化した場合に音声の口調を変化させることのできる音声対話装置及び音声対話プログラムに関するものである。 The present invention relates to a voice dialogue apparatus and a voice dialogue program. More specifically, the present invention relates to a voice dialogue apparatus and a voice dialogue program that can change the tone of voice when conversation contents change.
従来、ユーザがコンピュータを使用する場合、キーボードやマウスによる情報入力、ディスプレイに文字や画像を表示することによる情報出力が行われている。このような入出力よりも、ユーザがより親しみやすい環境で情報の入出力ができるように、音声による入出力を行うユーザ支援装置及びシステムが提案されている(例えば、特許文献1参照)。特許文献1に記載のユーザ支援装置では、ユーザ支援装置とユーザとが対話することによって情報の入出力が行われる。
人間同士が会話をする場合、会話内容が変わるのに応じて口調やテンポにも変化が生じる。例えば、仕事の話から趣味の話へ話の内容が変化したのであれば、仕事の話中の真面目な口調が、趣味の話中の楽しげに軽い口調に変化する。しかしながら、特許文献1に記載のユーザ支援装置のような装置は、固定的な音声、固定的なスピードでユーザとの対話を行う。したがって、会話の内容が変化したとしても、それに応じて、対話する音声の口調が変化しなかったので、ユーザは不自然に感じることがあった。
When people talk to each other, their tone and tempo change as the content of the conversation changes. For example, if the content of the story changes from a job story to a hobby story, the serious tone during the job story changes into a joyful and light tone during the hobby story. However, an apparatus such as the user support apparatus described in
本発明は、上述の問題点を解決するためになされたものであり、会話内容が変化した場合に音声の口調を変化させることのできる音声対話装置及び音声対話プログラムを提供することを目的とする。 The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a voice dialogue apparatus and a voice dialogue program capable of changing the tone of voice when the conversation contents change. .
上記課題を解決するため、請求項1に係る発明の音声対話装置では、音声を入力する音声入力手段と、前記音声入力手段によって入力された音声である入力音声を文字列に変換する変換手段と、会話のコンテクストをキーワードに対応させて記憶するコンテクスト記憶手段と、前記変換手段により変換された文字列である変換文字列から前記コンテクスト記憶手段に記憶されているキーワードを抽出し、抽出された前記キーワードに対応して前記コンテクスト記憶手段に記憶されている前記コンテクストを前記入力音声のコンテクストに決定するコンテクスト決定手段と、前記入力音声に応じた会話文を決定する会話文決定手段と、音声を出力する音声出力手段と、前記音声出力手段によって出力される音声の属性を記憶する属性記憶手段と、前記属性記憶手段に記憶された属性で、前記会話文決定手段によって決定された前記会話文を前記音声出力手段に音声出力させる出力制御手段と、前記コンテクスト決定手段によって決定された前記コンテクストである決定コンテクストが、前記コンテクスト決定手段によって前回決定された前記コンテクストである前回決定コンテクストから変化したか否かを判断する判断手段と、前記判断手段によって前記決定コンテクストが変化したと判断された場合に、前記属性記憶手段に記憶されている音声の属性を変更する属性変更手段とを備えている。 In order to solve the above-mentioned problem, in the voice interactive apparatus according to the first aspect of the present invention, voice input means for inputting voice, and conversion means for converting the input voice, which is voice input by the voice input means, into a character string , A context storage means for storing a conversation context corresponding to a keyword, and extracting a keyword stored in the context storage means from a converted character string that is a character string converted by the conversion means, and extracting the extracted keyword Context determination means for determining the context stored in the context storage means corresponding to a keyword as the context of the input voice, conversation sentence determination means for determining a conversation sentence according to the input voice, and outputting a voice Voice output means for performing, and attribute storage means for storing attributes of the voice output by the voice output means; Output control means for causing the voice output means to output the conversation sentence determined by the conversation sentence determination means with the attribute stored in the attribute storage means, and determination that is the context determined by the context determination means When it is determined by the determination means that the context has changed from the previous determination context that is the previous context determined by the context determination means, and when the determination context determines that the determination context has changed, Attribute changing means for changing the attribute of the sound stored in the attribute storage means.
また、請求項2に係る発明の音声対話装置では、請求項1に記載の発明の構成に加えて、前記音声出力手段によって出力される音声の属性に関する音声属性情報を前記コンテクストに対応させて記憶する属性情報記憶手段を備え、前記属性変更手段は、前記決定コンテクストが前記属性情報記憶手段に前記音声属性情報が記憶されているコンテクストに変化した場合に、前記属性記憶手段に記憶されている音声の属性を、前記決定コンテクストに対応した前記音声属性情報の示す音声の属性に変更する。
In addition to the configuration of the invention according to
また、請求項3に係る発明の音声対話装置では、請求項1又は2に記載の発明の構成に加えて、前記コンテクスト記憶手段のデータ構造はツリー構造であり、前記ツリー構造の階層が上位から下位へ進むにつれ、詳細な会話内容となるように、複数のコンテクストを記憶しており、前記属性変更手段は、前記決定コンテクストと前記前回決定コンテクストとが前記ツリー構造の親子関係にある場合、又は同じ階層に属する場合に音声の属性を変更する。
In addition, in the spoken dialogue apparatus of the invention according to
また、請求項4に係る発明の音声対話装置では、請求項1又は2に記載の発明の構成に加えて、前記コンテクスト記憶手段のデータ構造はツリー構造であり、前記ツリー構造の階層が上位から下位へ進むにつれ、詳細な会話内容となるように、複数のコンテクストを記憶しており、前記属性変更手段は、前記決定コンテクストが前記ツリー構造の所定の階層のコンテクストとなった場合に音声の属性を変更する。
Moreover, in the spoken dialogue apparatus of the invention according to
また、請求項5に係る発明の音声対話装置では、請求項1乃至4のいずれかに記載の発明の構成に加えて、前記属性変更手段は、第一の所定時間内に前記決定コンテクストが所定回数以上変化した場合に音声の属性を変更することを特徴とする。 According to a fifth aspect of the present invention, in addition to the configuration of the first aspect, the attribute changing means is configured such that the determination context is predetermined within a first predetermined time. It is characterized in that the audio attribute is changed when the number of times changes.
また、請求項6に係る発明の音声対話装置では、請求項1乃至5のいずれかに記載の発明の構成に加えて、前記属性変更手段は、前記決定コンテクストが変化しない時間が第二の所定時間以上である場合に音声の属性を変更することを特徴とする。
Further, in the spoken dialogue apparatus of the invention according to
また、請求項7に係る発明の音声対話プログラムでは、請求項1乃至6のいずれかに記載の音声対話装置の各種処理手段としてコンピュータを動作させることを特徴とする。 According to a seventh aspect of the present invention, there is provided a voice interaction program that causes a computer to operate as various processing means of the voice interaction device according to any one of the first to sixth aspects.
請求項1に係る発明の音声対話装置では、コンテクストが変化した場合に出力音声の属性を変更することができる。よって、ユーザがコンテクストの変化を指示することなく、出力音声の属性が変更される。コンテクストの変化に応じて音声が切り替わることにより、会話状況に変化が付き、会話を楽しむ一助となる。 In the spoken dialogue apparatus according to the first aspect of the present invention, the attribute of the output voice can be changed when the context changes. Therefore, the attribute of the output sound is changed without the user giving an instruction to change the context. By switching the voice according to the change of the context, the conversation situation changes, which helps to enjoy the conversation.
また、請求項2に係る発明の音声対話装置では、請求項1に記載の発明の効果に加えて、コンテクストに相応しい属性を示す音声属性情報を、コンテクストに対応させて記憶しておけば、コンテクスト、つまり会話の内容に相応しい音声を出力することができる。よって、コンテクストの変化に応じて、出力音声を会話の内容に相応しい音声に切り替えることができる。したがって、ユーザは、会話の内容と音声とに違和感を抱くことなく、自然な会話を行うことができる。
Further, in the spoken dialogue apparatus of the invention according to
また、請求項3に係る発明の音声対話装置では、請求項1又は2に記載の発明の効果に加えて、ユーザは、音声対話装置から出力される音声によって、会話の内容が深くなったり、浅くなったり、同レベルのコンテクストで変化していたりする状況が分かる。よって、ユーザは、会話の内容の変化状況を把握しながら会話することができ、会話を楽しむ一助となる。 In addition, in the voice interactive device according to the third aspect of the invention, in addition to the effect of the invention according to the first or second aspect, the user can deepen the content of the conversation by the voice output from the voice interactive device, You can see the situation becoming shallow and changing in the same level of context. Therefore, the user can talk while grasping the change state of the content of the conversation, and helps to enjoy the conversation.
また、請求項4に係る発明の音声対話装置では、請求項1又は2に記載の発明の効果に加えて、音声対話装置と会話をしているユーザは、会話のコンテクストの階層を、出力される音声によって把握することができる。よって、ユーザは、会話の内容の変化状況を把握しながら会話することができ、会話を楽しむ一助となる。例えば、特定の階層を最も下位の階層とすれば、ユーザは、それ以上コンテクストが詳細な内容に変化することがないことを知ることができる。また、特定の階層を最も上位の階層とすれば、ユーザは、会話をより詳細な内容に移行させることが可能である旨を知ることができる。また、所定の階層のコンテクストに何らかの意味を持たせるように、ツリー構造の構築に工夫を施せば、音声の属性の変化によって、ユーザに何らかの意味を伝えることができる。 In addition, in the voice interaction device according to the fourth aspect of the invention, in addition to the effect of the invention according to the first or second aspect, the user having a conversation with the voice interaction device outputs the level of the context of the conversation. Can be grasped by voice. Therefore, the user can talk while grasping the change state of the content of the conversation, and helps to enjoy the conversation. For example, if a specific hierarchy is set as the lowest hierarchy, the user can know that the context does not change to detailed contents any more. Further, if the specific hierarchy is the highest hierarchy, the user can know that the conversation can be shifted to more detailed contents. Further, if a tree structure is devised so as to give some meaning to the context of a predetermined hierarchy, some meaning can be conveyed to the user by a change in voice attributes.
また、請求項5に係る発明の音声対話装置では、請求項1乃至4のいずれかに記載の発明の効果に加えて、音声対話装置と会話をしているユーザは、音声対話装置から出力される音声により、コンテクストが所定時間内に何度も切り替わったことがわかる。よって、ユーザは、会話の内容の変化状況を感じながら会話することができ、会話を楽しむ一助となる。 Further, in the voice interactive device according to the fifth aspect of the invention, in addition to the effect of the invention according to any one of the first to fourth aspects, the user having a conversation with the voice interactive device is output from the voice interactive device. The voice indicates that the context has been switched many times within a predetermined time. Therefore, the user can talk while feeling the change state of the content of the conversation, which helps to enjoy the conversation.
また、請求項6に係る発明の音声対話装置では、請求項1乃至5のいずれかに記載の発明の効果に加えて、音声対話装置と会話をしているユーザは、音声対話装置から出力される音声により、同一のコンテクストが第二の所定時間以上継続していることがわかる。よって、コンテクストの変化がなかったとしても出力音声の属性が変化するので、会話を楽しむ一助となる。 In addition, in the voice interaction device according to the sixth aspect of the invention, in addition to the effect of the invention according to any one of the first to fifth aspects, the user having a conversation with the voice interaction device is output from the voice interaction device. It can be seen that the same context continues for a second predetermined time or longer. Therefore, even if there is no change in the context, the attribute of the output voice changes, which helps to enjoy the conversation.
また、請求項7に係る発明の音声対話プログラムは、請求項1乃至6のいずれかに記載の音声対話装置の各種処理手段としてコンピュータを機能させることができる。したがって、請求項1乃至6のいずれかに記載の発明の効果と同様の効果を奏することができる。
According to a seventh aspect of the present invention, there is provided a voice interaction program that allows a computer to function as various processing means of the voice interaction device according to any one of the first to sixth aspects. Therefore, an effect similar to the effect of the invention according to any one of
以下、本発明の実施の形態を図面を参照して説明する。図1は、音声対話装置100のハードウェアブロック図である。本実施の形態の音声対話装置100は、所謂パーソナルコンピュータである。図1に示すように、音声対話装置100には、音声対話装置100の制御を司るCPU10が設けられている。CPU10には、各種のデータを一時的に記憶するRAM11と、BIOS等を記憶したROM12とが接続している。さらに、CPU10には、バスを介して、ハードディスク装置13、出力制御部14、入力制御部15、音声出力制御部16、音声入力制御部17、タイマ18が接続している。出力制御部14には出力機器24が接続され、入力制御部15には入力機器25が接続されている。出力機器24とは、例えばディスプレイであり、入力機器25とは、例えばマウスやキーボードである。音声出力制御部16にはスピーカ26が接続され、音声入力制御部17にはマイク27が接続されている。タイマ18は時間を計測する。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a hardware block diagram of the
ハードディスク装置13には、コンテクストツリー記憶エリア131,属性情報記憶エリア132,音響モデル記憶エリア133,音声対話プログラム記憶エリア134,その他の情報記憶エリア135が少なくとも設けられている。コンテクストツリー記憶エリア131には、コンテクスト(会話の内容)の関係を示したコンテクストツリーが記憶されている。属性情報記憶エリア132には、所定の条件を満たすコンテクストの会話がなされている際に指定される音声属性に関する情報(以下、「音声属性情報」という)が記憶されている。音響モデル記憶エリア133には、音声をマイク27から出力するための複数の音響モデルが記憶されている。音声対話プログラム記憶エリア134には、CPU10で実行される音声対話プログラムが記憶されている。その他の情報記憶エリア135には、音声対話装置100で使用されるその他の情報が記憶されている。
The
RAM11には現在決定コンテクスト記憶エリア111、前回決定コンテクスト記憶エリア112、属性記憶エリア113が設けられている。現在決定コンテクスト記憶エリア111には、現在の決定コンテクストのコンテクストID(以下、「決定コンテクストID」という。)が記憶される。前回決定コンテクスト記憶エリア112には、現在のコンテクストとなる直前の決定コンテクストのコンテクストID(以下、「前回決定コンテクストID」という。)が記憶される。属性記憶エリア113には、スピーカ26から出力される音声を音声合成する際の属性が記憶されている。属性のデータ項目は、例えば、スピード、ピッチ、音響モデル、フィルター後の声質である。
The
本実施の形態では、音声対話装置100において、音声対話プログラムが実行されると、音声対話エージェントが起動される。音声対話エージェントによって、出力機器(ディスプレイ)24にキャラクタの画像が表示される。このキャラクタ画像が音声対話エージェントを具象化したものである。ユーザは、このキャラクタ画像と対話する感覚で音声対話エージェントとの対話を行う。ユーザからの発言(音声)は、マイク27から入力される。入力された音声がテキスト解析され、ユーザからの入力文とされる。入力文に応じた応答文が決定され、音声変換されてスピーカ26から音声出力される。音声出力の際には、キャラクタ画像も言葉を発しているような図柄となり、キャラクタと対話をしている臨場感をユーザに与える。
In the present embodiment, when a voice interaction program is executed in the
さらに、ユーザと音声対話エージェントとの対話内容が、ユーザの入力文中のキーワードにより決定される。この対話内容を「コンテクスト」という。このコンテクストはツリー構造で表される(図3参照)。音声対話エージェントは、特定のコンテクストや、コンテクストの移動状態に応じて音声対話エージェントの出力音声の属性を変更し、会話の内容に相応しい音声を出力する。 Furthermore, the content of dialogue between the user and the voice dialogue agent is determined by a keyword in the user's input sentence. This dialogue is called “context”. This context is represented by a tree structure (see FIG. 3). The voice interaction agent changes the attribute of the output voice of the voice interaction agent according to the specific context and the moving state of the context, and outputs a sound suitable for the content of the conversation.
図2及び図3を参照して、HDD13に設けられているコンテクストツリー記憶エリア131について説明する。図2は、コンテクストツリー記憶エリア131の構成を示す模式図である。図3は、コンテクストツリー記憶エリア131に記憶されているコンテクストのツリー構造の模式図である。
The context
図2に示すように、コンテクストツリー記憶エリア131には、データ項目として「コンテクストID」,「コンテクスト名」,「キーワード」が設けられている。そして、コンテクストID毎に、コンテクスト名が与えられている。さらに、コンテクストIDにはキーワードが割り当てられており、ユーザと音声対話エージェントとの会話の中にキーワードが出現した場合には、そのキーワードが対応付けられているコンテクストが現在の会話のコンテクストである「決定コンテクスト」とされる。なお、図2に示すコンテクストは一例である。
As shown in FIG. 2, the context
コンテクストIDの付与規則について説明する。コンテクストID「0000」は、ツリー構造の根となるコンテクストに対して付与されるIDである。枝上のコンテクストには、例えば「0100−0000」のように、4桁+4桁のIDが付与される。後の4桁「0000」は、親(1階層上位)のコンテクストIDである。つまり、「0100−0000」は、コンテクストID「0000」の子(1階層下位)であることを示す。以下、後の4桁のIDを「親ID」という。図2に示すコンテクストツリー記憶エリア131では、図3に示すように、コンテクストID「0000」のコンテクスト名「一般」のコンテクストが根となっている。コンテクストID「0000」のコンテクストの子として、コンテクストID「0100−0000」のコンテクスト名「音楽」のコンテクスト,コンテクストID「0101−0000」のコンテクスト名「アート」のコンテクスト,コンテクストID「0102−0000」のコンテクスト名「雑談」のコンテクストが根のコンテクストに接続している。
The rules for assigning context IDs will be described. The context ID “0000” is an ID given to the context that is the root of the tree structure. The context on the branch is given a 4-digit + 4-digit ID such as “0100-0000”. The last four digits “0000” are the context ID of the parent (one layer higher). That is, “0100-0000” indicates a child of the context ID “0000” (lower one hierarchy). Hereinafter, the subsequent four-digit ID is referred to as “parent ID”. In the context
また、コンテクストIDの前の4桁のうち、先の2桁はツリー構造の階層を示している。図3に示すように、ツリー構造の根のコンテクストでは、先の2桁のIDは「00」であり、階層「00」を示している。コンテクストID「0100−0000」のコンテクスト名「音楽」のコンテクストでは、先の2桁のID「01」は1階層目を示している。コンテクストID「0100−0000」のコンテクストの子のコンテクストID「0200−0100」,「0201−0100」では、前の4桁のうちの先の2桁のID「02」は2階層目を示している。さらに、前の4桁のうちの後の2桁は、同一階層内での識別番号である。図2及び図3で示す例では、識別番号として、「00」から順に「01」,「02」が割り当てられている。以下、前の4桁を「自ID」、自IDのうち前の2桁を「階層ID」、後の2桁を「識別番号」という。つまり、コンテクストIDは「(自ID4桁)−(親ID4桁)」、すなわち「(階層ID2桁)(識別番号2桁)−(親ID4桁)」で構成される。このようなコンテクストIDの付与規則に従って、互いに重複しないIDがコンテクストに対して割り当てられるので、コンテクストをコンテクストIDによって識別できる。
Of the four digits before the context ID, the first two digits indicate the hierarchy of the tree structure. As shown in FIG. 3, in the context of the root of the tree structure, the previous two-digit ID is “00”, indicating the hierarchy “00”. In the context of the context name “music” with the context ID “0100-0000”, the previous two-digit ID “01” indicates the first layer. In the context IDs “0200-0100” and “0201-0100” of the context child of the context ID “0100-0000”, the previous two-digit ID “02” of the previous four digits indicates the second layer. Yes. Further, the last two digits of the preceding four digits are identification numbers in the same hierarchy. In the example shown in FIG. 2 and FIG. 3, “01” and “02” are assigned in order from “00” as identification numbers. Hereinafter, the first four digits are referred to as “own ID”, the previous two digits of the own ID are referred to as “hierarchy ID”, and the latter two digits are referred to as “identification number”. In other words, the context ID is composed of “(
次に、図4乃至図6を参照して、HDD13に設けられている属性情報記憶エリア132について説明する。属性情報記憶エリア132は、第一属性情報記憶エリア1321、第二属性情報記憶エリア1322、及び第三属性情報記憶エリア1323を備えている。図4は、第一属性情報記憶エリア1321の構成を示す模式図であり、図5は、第二属性情報記憶エリア1322の構成を示す模式図であり、図6は、第三属性情報記憶エリア1323の構成を示す模式図である。
Next, the attribute
まず、図4を参照して、第一属性情報記憶エリア1321について説明する。第一属性情報記憶エリア1321には、特別な意味を持つコンテクストが決定コンテクストとなった場合に属性を変更するための音声属性情報が記憶されている。図4に示すように、第一属性情報記憶エリア1321には、データ項目として「意味」,「コンテクストID」,「第一変更属性」,「第二変更属性」が設けられている。「第一変更属性」,「第二変更属性」には、それぞれ「種類」,「方法」,「変更値」の項目が設けられている。それぞれの意味にコンテクストIDが割り当てられており、属性のうち、2種類の属性を変更属性として設定することができる。属性の種類としては、例えば、出力音声のスピード,音声合成の際に使用する音響モデルの種類,出力音声のピッチ,フィルター後の出力音声の声質がある。なお、属性はこれに限らず、音声合成を行う音声合成プログラムに対して付与可能な属性を用いればよい。以下、意味に割り当てられているコンテクストIDで特定されるコンテクストを「意味コンテクスト」という。
First, the first attribute
図4に示す例では、特別の意味として「趣味」,「得意分野」,「不得意分野」,「雑談」がある。「趣味」に割り当てられているコンテクストIDは「0101−0000」である。第一変更属性は「スピード」であり、変更値が「1.2」とされているので、出力音声のスピードが1.2に変更される。第二変更属性は「ピッチ」であり、方法が「高く」なので、出力音声のピッチが所定量高く変更される。変更される所定量は、予め定められており、例えば方法が「高く」であれば、ピッチが現在のピッチよりも0.1高く変更される。方法が「低く」であれば、ピッチが現在のピッチよりも0.1低く変更される。また、意味「得意分野」では、第一変更属性として「声の種類」が指定されており、変更値が「modelC」とされている。これは、音声合成を行う際に、音響モデルのうち「modelC」という音響モデルが使用されるということを示す。音響モデルはHDD13の音響モデル記憶エリア133に記憶されている。なお、図4に示す例はあくまでも一例であり、他の意味を設定してもよいし、1つの意味に複数のコンテクストを割り当ててもよい。また、音声属性情報は図4に示す情報に限らない。
In the example shown in FIG. 4, there are “hobbies”, “special fields”, “special fields”, and “chat” as special meanings. The context ID assigned to “hobby” is “0101-0000”. Since the first change attribute is “speed” and the change value is “1.2”, the speed of the output voice is changed to 1.2. Since the second change attribute is “pitch” and the method is “high”, the pitch of the output audio is changed by a predetermined amount. The predetermined amount to be changed is determined in advance. For example, if the method is “high”, the pitch is changed by 0.1 higher than the current pitch. If the method is "low", the pitch is changed 0.1 lower than the current pitch. Further, in the meaning “special field”, “voice type” is designated as the first change attribute, and the change value is “modelC”. This indicates that an acoustic model “modelC” is used among the acoustic models when performing speech synthesis. The acoustic model is stored in the acoustic
次に、図5を参照して、第二属性情報記憶エリア1322について説明する。第二属性情報記憶エリア1322には、コンテクストツリーにおいて特定の階層のコンテクストが決定コンテクストとなった場合に属性を変更するための音声属性情報が記憶されている。以下、特定の階層に属するコンテクストを「特定階層コンテクスト」という。図5に示すように、第二属性情報記憶エリア1322には、データ項目として「階層」及び「第一変更属性」が設けられている。「第一変更属性」には、「種類」,「方法」,「変更値」の項目が設けられている。それぞれの階層に対して、第一変更属性が割り当てられており、1つの音声属性を変更属性として設定することができる。
Next, the second attribute
図5に示す例では、特定の階層として「最上位」,「2階層目」,「最下層」が指定されている。決定コンテクストがコンテクストツリーの最上位層、つまり、コンテクストIDが「0000」であれば、全ての属性を初期値に変更する指示が成される。決定コンテクストが2階層目のコンテクストである、つまり、コンテクストIDが「02**−****(*は任意の数)」であれば、ピッチを「0.6」とする指示が成される。決定コンテクストがコンテクストツリーの最下層、つまり、図2及び図3に示す例ではコンテクストIDが「04**−****」であれば、声質を「0.4」とする指示が成される。なお、図5に示す変更指示は一例であり、他の階層に対して変更指示を設定してもよく、また、変更内容は他の内容であってもよい。 In the example shown in FIG. 5, “highest level”, “second level”, and “lowest level” are designated as specific levels. If the determined context is the highest layer of the context tree, that is, if the context ID is “0000”, an instruction to change all attributes to initial values is issued. If the determined context is the context of the second layer, that is, if the context ID is “02 ***-****” (* is an arbitrary number), an instruction to set the pitch to “0.6” is issued. The If the determined context is the lowest layer of the context tree, that is, in the example shown in FIGS. 2 and 3, if the context ID is “04 ***-***”, an instruction to set the voice quality to “0.4” is issued. The Note that the change instruction illustrated in FIG. 5 is an example, and the change instruction may be set for another layer, and the change content may be other content.
次に、図6を参照して、第三属性情報記憶エリア1323について説明する。詳細は後述するが、音声対話装置100では、決定コンテクストが変更された場合に、コンテクストツリーにおいてどのような位置関係で決定コンテクストが移動したかが判断される。第三属性情報記憶エリア1323には、決定コンテクストの移動が特定の位置変化であった場合に属性を変更するための音声属性情報が記憶されている。図6に示すように、第三属性情報記憶エリア1323には、データ項目として「位置変化」及び「第一変更属性」が設けられている。「第一変更属性」には、「種類」,「方法」,「変更値」の項目が設けられている。それぞれの位置変化に対して、第一変更属性が割り当てられており、1つの音声属性を変更属性として設定することができる。
Next, the third attribute
図6に示す例では、位置変化として「隣に移動(ID小)」,「隣に移動(ID大)」,「1階層上に移動」,「1階層下に移動」,「2階層上に移動」,「2階層下に移動」が設けられている。「隣に移動(ID小)」は、コンテクストツリーにおいて同じ階層の隣のコンテクストで、識別番号が1つ小さい方のコンテクストへの移動を示している。つまり、移動前の決定コンテクストと、移動後の決定コンテクストとの階層IDが等しく、「移動後の識別番号=移動前の識別番号−1」が成立する場合が、この「隣に移動(ID小)」に該当する。「隣に移動(ID大)」は、コンテクストツリーにおいて同じ階層の隣のコンテクストで、識別番号が1つ大きい方のコンテクストへの移動を示している。つまり、移動前の決定コンテクストと、移動後の決定コンテクストとの階層IDが等しく、「移動後の識別番号=移動前の識別番号+1」が成立する移動が、この「隣に移動(ID大)」に該当する。 In the example shown in FIG. 6, as the position change, “move next (small ID)”, “move next (large ID)”, “move up one level”, “move down one level”, “up two levels” "Move to" and "Move down two levels" are provided. “Move to next (small ID)” indicates movement to the context of the next lower level in the context tree and having the identification number one smaller. That is, when the hierarchical IDs of the determination context before the movement and the determination context after the movement are equal and “identification number after movement = identification number before movement−1” is established, ) ”. “Move to next (large ID)” indicates a move to a context having an identification number larger by one in the context next to the same hierarchy in the context tree. That is, the movement in which the hierarchy ID of the determination context before the movement and the determination context after the movement is equal and “the identification number after the movement = the identification number before the movement + 1” is established is the “movement next (large ID)”. It corresponds to.
「1階層上に移動」は、コンテクストツリーにおいて1つ上の階層のコンテクストへの移動を示している。移動前の決定コンテクストの親IDと移動後の決定コンテクストの自IDとが等しい場合の移動が、この「1階層上に移動」に該当する。「1階層下に移動」は、コンテクストツリーにおいて1つ下の階層のコンテクストへの移動を示している。移動前の決定コンテクストの自IDと移動後の決定コンテクストの親IDとが等しい場合の移動が、この「1階層下に移動」に該当する。「2階層上に移動」は、コンテクストツリーにおいて2つ上の階層のコンテクストへの移動を示している。移動前の決定コンテクストの親IDのコンテクストの親IDと、移動後の決定コンテクストの自IDとが等しい場合の移動が、この「2階層上に移動」に該当する。「2階層下に移動」は、コンテクストツリーにおいて2つ下の階層のコンテクストへの移動を示している。移動後の決定コンテクストの親IDのコンテクストの親IDと、移動前の決定コンテクストの自IDとが等しい場合の移動が、この「2階層下に移動」に該当する。すなわち、移動前の決定コンテクストから見て、移動後の決定コンテクストが親である場合、親の親である場合、子である場合、及び子の子である場合(これらの関係を総称して、本実施の形態では「親子関係」という。)に音声の属性が変更される。 “Move up one level” indicates a move up to a context one level higher in the context tree. The movement in the case where the parent ID of the determination context before the movement and the own ID of the determination context after the movement are equal corresponds to this “move up one level”. “Move down one level” indicates movement to a context one level below in the context tree. The movement in the case where the own ID of the determination context before movement is equal to the parent ID of the determination context after movement corresponds to this “move down one level”. “Move up two layers” indicates a move up to a context two levels higher in the context tree. The movement when the parent ID of the context of the parent ID of the determination context before the movement is equal to the own ID of the determination context after the movement corresponds to this “move up two levels”. “Move down two levels” indicates movement to the context two levels below in the context tree. The movement when the parent ID of the context of the parent ID of the determined context after the movement is equal to the own ID of the determined context before the movement corresponds to this “move down two levels”. That is, when viewed from the decision context before movement, the decision context after movement is a parent, a parent of a parent, a child, and a child of a child (these relationships are collectively referred to as In this embodiment, the voice attribute is changed to “parent-child relationship”.
次に、図7乃至図9を参照して、音声対話装置100において、音声対話エージェントが起動した際の動作について、音声の属性の変更に主点をおいて説明する。図7は、音声対話装置100の動作を示すフローチャートである。図8は、メイン処理中で実行される第一処理のフローチャートである。図9は、メイン処理中で実行される第二処理のフローチャートである。図7に示すメイン処理の動作は、ハードディスク装置13に記憶されている音声対話プログラムに従ってCPU10が実行する。まず、最初の決定コンテクスト及び音声の属性が設定される(S1)。最初の決定コンテクスト及び音声の属性は予め定められている。最初のコンテクストIDが、RAM11の現在決定コンテクスト記憶エリア111に記憶され、最初の音声の属性が、RAM11の属性記憶エリア113に記憶される。図2,図3に示す例では、例えば、コンテクストID「0000」が最初の決定コンテクストとされる。
Next, with reference to FIG. 7 to FIG. 9, the operation when the voice interaction agent is activated in the
次いで、決定コンテクストが変化した回数を計数するカウンタCの値が、初期値である「0」に初期化される(S2)。音声の属性を変化させる基準となる時間を計測するタイマ18がリセットされて、時間の計測が開始される(S3)。マイク27から音声が入力されることにより、ユーザからの音声の入力があったか否かの判断が行われる(S4)。ユーザからの音声の入力がない場合には(S4:NO)、繰り返し入力の確認が行われ(S4)、ユーザからの入力の待機状態とされる。
Next, the value of the counter C that counts the number of times the determined context has changed is initialized to “0”, which is an initial value (S2). The
ユーザからの音声の入力があった場合には(S4:YES)、入力された音声が周知の音声解析技術によって解析されて、文字変換される(S5)。得られた文字列が音声対話エージェントの終了を示す文言であるか否かによって、音声対話エージェントの終了指示が行われたか否かの判断が行われる(S6)。音声対話エージェントの終了を示す文言は、予め登録されているものであり、例えば「終わるよ」,「バイバイ」,「さよなら」,「じゃあね」,「終わり」,「おやすみ」というものである。得られた文字列が終了指示でなければ(S6:NO)、文字列からキーワードが抽出される(S7)。具体的には、文字列が品詞分解され、得られた単語の中にキーワードがあるか否かの判断が行われる。単語の中に、コンテクストツリー記憶エリア131の「キーワード」に登録されている単語が含まれていれば、文字列の中で最も早く出現したキーワードが、コンテクスト決定のためのキーワードとされる。そして、抽出されたキーワードに基づいて決定コンテクストが決定される(S8)。具体的には、抽出されたキーワードが対応付けられているコンテクストIDが、決定コンテクストのコンテクストIDとされる。現在決定コンテクスト記憶エリア111に記憶されているコンテクストIDが、前回決定コンテクスト記憶エリア112に記憶される。キーワードが対応付けられているコンテクストIDが、現在決定コンテクスト記憶エリア111に記憶される。
When a voice is input from the user (S4: YES), the input voice is analyzed by a well-known voice analysis technique and converted into a character (S5). It is determined whether or not an instruction to end the voice interaction agent has been issued based on whether or not the obtained character string is a word indicating the end of the voice interaction agent (S6). The words indicating the end of the voice interaction agent are registered in advance, for example, “End”, “Bye Bye”, “Goodbye”, “Jaane”, “End”, “Good Night”. If the obtained character string is not an end instruction (S6: NO), a keyword is extracted from the character string (S7). Specifically, the part of speech is decomposed, and it is determined whether or not there is a keyword in the obtained word. If a word registered in the “keyword” of the context
次いで、決定コンテクストに変化があったか否かの判断が行われる(S9)。前回決定コンテクスト記憶エリア112に記憶されているコンテクストIDと、現在決定コンテクスト記憶エリア111に記憶されているコンテクストIDとが同じであれば、決定コンテクストに変化はなかったと判断される(S9:NO)。そして、第一処理が行われる(S10)。
Next, it is determined whether or not the decision context has changed (S9). If the context ID stored in the previously determined
図8に示す第一処理が開始されると、タイマ18で計測されている時間が5分以上経過しているか否かが判断される(S31)。5分以上経過していなければ(S31:NO)、処理はメイン処理へ戻る。5分以上経過していれば(S31:YES)、カウンタCの値が「0」であるか否かが判断される(S32)。「0」である場合、すなわち、決定コンテクストが5分以上変化していない場合には(S32:YES)、属性の1つである「ピッチ」の値が0.8倍に変更される(S33)。タイマ18がリセットされ、時間の計測が開始されて(S34)、処理はメイン処理へ戻る。
When the first process shown in FIG. 8 is started, it is determined whether or not the time measured by the
カウンタCの値が「0」でない場合には(S32:NO)、カウンタCの値が「5」以上であるか否かが判断される(S35)。「5」以上でなければ(S35:NO)、タイマ18がリセットされ、時間の計測が開始されて(S34)、処理はメイン処理へ戻る。カウンタCの値が「5」以上である場合、すなわち、5分間の間に決定コンテクストが少なくとも5回以上変化していれば(S35:YES)、全ての音声の属性が初期値に変更される(S36)。カウンタCの値が「0」に初期化される(S37)。タイマ18がリセットされ、時間の計測が開始されて(S34)、処理はメイン処理へ戻る。
When the value of the counter C is not “0” (S32: NO), it is determined whether or not the value of the counter C is “5” or more (S35). If it is not "5" or more (S35: NO), the
処理が図7に示すメイン処理へ戻ると、ユーザによって入力された音声を変換した文言に応答する応答文が決定される(S20)。応答文の決定は、周知の対話技術によって、予め定められているルールに基づいて行われる。どのような応答文が決定されるかは、特に重要でないので説明を省略する。S20で決定された応答文が、RAM11の属性記憶エリア113に記憶されている属性に基づいて、周知の音声合成技術により音声合成され(S21)、スピーカ26から出力される(S22)。そして、S4へ戻り、ユーザからの入力が待機される(S4)。
When the process returns to the main process shown in FIG. 7, a response sentence is determined in response to a word converted from the voice input by the user (S20). The response sentence is determined based on a predetermined rule by a well-known dialogue technique. The type of response sentence to be determined is not particularly important and will not be described. The response sentence determined in S20 is voice-synthesized by a well-known voice synthesis technique based on the attribute stored in the
決定コンテクストに変化があった場合には(S9:YES)、決定コンテクストが変化した回数を計数するカウンタCの値に「1」が加算される(S12)。タイマ18で計測されている時間が5分以上経過しているか否かが判断される(S13)。5分以上経過していなければ(S13:NO)、第二処理が行われる(S14)。
When there is a change in the decision context (S9: YES), “1” is added to the value of the counter C that counts the number of times the decision context has changed (S12). It is determined whether or not the time measured by the
図9に示す第二処理が開始されると、まず、決定コンテクストが意味コンテクストであるか否かの判断が行われる(S38)。決定コンテクストのコンテクストIDが、第一属性情報記憶エリア1321(図4参照)の「コンテクストID」に記憶されていれば、その決定コンテクストは意味コンテクストであると判断される(S38:YES)。そこで、出力音声の属性が変更される(S41)。具体的には、第一属性情報記憶エリア1321の「第一変更属性」及び「第二変更属性」が参照される。この場合、属性記憶エリア113において、「種類」で指定されている属性が「方法」又は「変更値」の指定に基づいて変更される。例えば、決定コンテクストIDが「0101−0000」であれば、「スピード」が「1.2」とされ、「ピッチ」の値に「0.1」が加算される。その後、処理はメイン処理へ戻る。
When the second process shown in FIG. 9 is started, first, it is determined whether or not the determined context is a semantic context (S38). If the context ID of the determined context is stored in the “context ID” of the first attribute information storage area 1321 (see FIG. 4), it is determined that the determined context is a semantic context (S38: YES). Therefore, the attribute of the output voice is changed (S41). Specifically, “first change attribute” and “second change attribute” in the first attribute
決定コンテクストが意味コンテクストでない場合には(S38:NO)、決定コンテクストが特定階層コンテクストであるか否かの判断が行われる(S39)。決定コンテクストIDが、第二属性情報記憶エリア1322(図5参照)の「階層」に指定されている階層に属するコンテクストIDである場合には、決定コンテクストが特定階層コンテクストであると判断される(S39:YES)。図5に示した例では、決定コンテクストIDの自IDが「0000」である場合(最上位層)、決定コンテクストIDの階層IDが「02」である場合(2階層目)、又は、決定コンテクストIDの階層IDが「04」である(最下層)場合に、決定コンテクストが特定階層コンテクストであると判断される。この場合、属性記憶エリア113において、第二属性情報記憶エリア1322の「第一変更属性」の「種類」で指定されている属性が、「方法」又は「変更値」の指定に基づいて変更される(S42)。例えば、階層IDが「02」であれば、「ピッチ」が「0.6」とされる。その後、処理はメイン処理へ戻る。
When the determined context is not a semantic context (S38: NO), it is determined whether the determined context is a specific hierarchy context (S39). When the determined context ID is a context ID belonging to the hierarchy specified in the “hierarchy” of the second attribute information storage area 1322 (see FIG. 5), it is determined that the determined context is a specific hierarchy context ( S39: YES). In the example shown in FIG. 5, when the self ID of the decision context ID is “0000” (the highest layer), when the hierarchy ID of the decision context ID is “02” (the second layer), or the decision context When the ID of the ID is “04” (lowermost layer), it is determined that the determined context is a specific hierarchy context. In this case, in the
決定コンテクストが特定階層コンテクストでない場合には(S39:NO)、決定コンテクストの移動状態が所定の位置変化であるか否かの判断が行われる(S40)。決定コンテクストIDと前回決定コンテクストIDとが比較され、第三属性情報記憶エリア1323(図6参照)の「位置変化」に指定されている移動状態であれば、所定の位置変化であると判断される(S40:YES)。例えば、図6に示した例では、移動前の決定コンテクストの親IDと移動後の決定コンテクストの自IDとが等しい場合に、「1階層上に移動」の位置変化であると判断される。この場合、属性記憶エリア113において、第三属性情報記憶エリア1323の「第一変更属性」の「種類」で指定されている属性が、「方法」又は「変更値」の指定に基づいて変更される(S43)。その後、処理はメイン処理へ戻る。
If the determined context is not a specific hierarchy context (S39: NO), it is determined whether or not the determined context movement state is a predetermined position change (S40). The determined context ID is compared with the previous determined context ID, and if the movement state is designated as “position change” in the third attribute information storage area 1323 (see FIG. 6), it is determined that the predetermined position change has occurred. (S40: YES). For example, in the example illustrated in FIG. 6, when the parent ID of the determination context before the movement and the own ID of the determination context after the movement are equal, it is determined that the position change is “move up one level”. In this case, in the
処理が図7に示すメイン処理へ戻ると、ユーザにより入力された音声を変換した文言に応答する応答文が決定される(S20)。応答文が、属性記憶エリア113に記憶されている変更後の属性に基づいて、周知の音声合成技術により音声合成され(S21)、スピーカ26から出力される(S22)。そして、処理はS4へ戻り、ユーザからの入力が待機される(S4)。 When the process returns to the main process shown in FIG. 7, a response sentence is determined in response to the text converted from the voice input by the user (S20). The response sentence is synthesized by a known speech synthesis technique based on the changed attribute stored in the attribute storage area 113 (S21) and output from the speaker 26 (S22). Then, the process returns to S4, and an input from the user is waited (S4).
また、決定コンテクストに変化があり(S9:YES)、タイマ18で計測されている時間が5分以上経過している場合には(S13:YES)、カウンタCの値が「5」以上であるか否かが判断される(S15)。カウンタ「C」の値が「5」以上でなければ(S15:NO)、タイマ18がリセットされ、時間の計測が開始されて(S16)、第二処理が行われる(S14)。
In addition, when there is a change in the determination context (S9: YES) and the time measured by the
カウンタCの値が「5」以上であれば(S15:YES)、全ての音声の属性が初期値に変更される(S17)。カウンタCの値が「0」に初期化される(S18)。タイマ18がリセットされ、時間の計測が開始される(S19)。応答文が決定され(S20)、決定された応答文が音声合成され(S21)、スピーカ26から出力される(S22)。そして、処理はS4へ戻り、ユーザからの入力が待機される(S4)。
If the value of the counter C is “5” or more (S15: YES), all audio attributes are changed to initial values (S17). The value of the counter C is initialized to “0” (S18). The
S4〜S22の処理が繰り返し行われることによって、ユーザと音声対話エージェントとの対話が進行する。コンテクストが変化した場合に、変化後のコンテクストが意味コンテクストであったり、特定階層コンテクストであったり、所定の位置変化が生じていたりすれば、出力音声の属性が変更される。決定コンテクストが変化しなかった時間が所定時間以上であれば、属性が変更される。決定コンテクストが所定時間内に所定回数以上していれば、属性が変更される。音声対話エージェントが出力する応答文は、属性記憶エリア113に記憶されている変更後の属性に基づいて、音声変換され、音声がスピーカ26から出力される。ユーザが終了を指示する言葉を入力した場合には、本処理は終了する。
By repeating the processes of S4 to S22, the dialogue between the user and the voice dialogue agent proceeds. When the context changes, if the changed context is a semantic context, a specific hierarchy context, or a predetermined position change occurs, the attribute of the output sound is changed. If the time when the decision context has not changed is equal to or longer than the predetermined time, the attribute is changed. If the determination context has exceeded the predetermined number of times within the predetermined time, the attribute is changed. The response sentence output by the voice interaction agent is converted into voice based on the changed attribute stored in the
以下、図10を参照して、図2〜図6に示した例におけるユーザと音声対話エージェントとの対話を具体例を挙げて説明する。図10は、ユーザと音声対話エージェントとの対話の一例を示す図である。図10において、「対話番号」は、ユーザからの入力文と音声対話エージェントの応答文との組に付与した番号である。「ユーザからの入力文」は、マイク27から入力された音声を文字変換して得られた文である。「キーワード」は、入力文から抽出されたキーワードである。「コンテクスト」は、キーワードによって決定された決定コンテクストである。「属性」には、「音響モデル」,「ピッチ」,「スピード」,「声質」が音声の属性として例示されている。「エージェントの応答文」は、入力文に応じて音声対話エージェントから出力される応答文である。以下の具体例では、全ての対話が5分以内に行われている。
Hereinafter, with reference to FIG. 10, the dialogue between the user and the voice interaction agent in the example shown in FIGS. FIG. 10 is a diagram illustrating an example of a dialogue between a user and a voice dialogue agent. In FIG. 10, “dialogue number” is a number assigned to a set of an input sentence from the user and a response sentence of the voice interaction agent. The “input sentence from the user” is a sentence obtained by converting the voice input from the
まず、最初の決定コンテクストの決定コンテクストIDは「0000」とされる。そして、RAM11の属性記憶エリア113にも、属性の初期値が記憶される(S1)。対話番号1の入力文「こんにちは」に対して、「こんにちは」がキーワードとして抽出される(S7)。「こんにちは」はコンテクストID「0000」のコンテクスト名「一般」のコンテクストに対応付けられているので(図2参照)、決定コンテクストIDは「0000」とされる(S8)。前回の決定コンテクストも「0000」なので、コンテクストに変化はない(S9:NO)。この場合、タイマ18による計測時間が5分未満であれば(S31:NO)、属性は初期値のまま変更されない。応答文「こんにちは、最近どこかへ出掛けた?」が決定され(S20)、初期値の属性に応じて音声合成が行われ(S21)、応答文が出力される(S22)。
First, the determination context ID of the first determination context is set to “0000”. The initial value of the attribute is also stored in the
次いで、ユーザが次の発言をし、対話番号2の入力文「そうだなぁ、展覧会へ行ったよ」が入力される(S4:YES)。入力された音声が文字変換され(S5)、「展覧会」がキーワードとして抽出される(S7)。「展覧会」はコンテクストID「0101−0000」のコンテクスト名「アート」のコンテクストに対応付けられているので(図2参照)、決定コンテクストIDは「0101−0000」とされる(S8)。前回の決定コンテクストは「0000」であるので、コンテクストに変化がある(S9:YES)。タイマ18による計測時間が5分未満であり(S13:NO)、決定コンテクストは意味コンテクストである(S38:YES)。「0101−0000」は、意味「趣味」の意味コンテクストのコンテクストIDであるので(図4参照)、ピッチは初期値の「1.0」に「0.1」が加算されて「1.1」となり、スピードは初期値の「1.0」から変更値の「1.2」に変更される(S41)。応答文「へえ、展覧会。絵とか彫刻とかを観るの?」が決定され(S20)、変更後の音声の属性で音声合成が行われ(S21)、応答文が出力される(S22)。
Next, the user makes the following statement, and an input sentence of
次いで、対話番号3の入力文「今回は絵の展覧会だったよ」が入力される(S4:YES)。「展覧会」がキーワードとして抽出される(S7)。「展覧会」はコンテクストID「0101−0000」のコンテクスト名「アート」のコンテクストに対応付けられているので、決定コンテクストIDは「0101−0000」とされる(S8)。前回決定コンテクストIDも「0101−0000」なので、決定コンテクストに変化はない(S9:NO)。応答文「どんな絵?」が決定され(S20)、前回と同じ属性で音声合成が行われ(S21)、応答文が出力される(S22)。
Next, an input sentence of
次いで、対話番号4の入力文「日本画だよ」が入力される(S4:YES)。「日本画」がキーワードとして抽出される(S7)。「日本画」はコンテクストID「0202−0101」のコンテクスト名「日本画」のコンテクストに対応付けられているので(図2参照)、決定コンテクストIDは「0202−0101」とされる(S8)。前回の決定コンテクストは「0101−0000」であるので、コンテクストに変化がある(S9:YES)。タイマ18による計測時間が5分未満であり(S13:NO)、決定コンテクストは意味コンテクストである(S38:YES)。コンテクストID「0202−0101」は意味「得意分野」の意味コンテクストであるので(図4参照)、音響モデルは「modelC」に変更される(S41)。応答文「へえ、日本画。昔の絵?それとも現代の日本画?」が決定され(S20)、変更後の属性で音声合成が行われ(S21)、応答文が出力される(S22)。
Subsequently, the input sentence “It is a Japanese picture” of the
次いで、対話番号5の入力文「昔のだね。狩野派の展覧会だったよ。」が入力される(S4:YES)。「狩野派」がキーワードとして抽出される(S7)。「狩野派」はコンテクストID「0304−0202」のコンテクスト名「狩野派」のコンテクストに対応付けられているので(図2参照)、決定コンテクストIDは「0304−0202」とされる(S8)。前回の決定コンテクストは「0202−0101」であるので、コンテクストに変化がある(S9:YES)。タイマ18による計測時間が5分未満であり(S13:NO)、決定コンテクストは、意味コンテクストでも特定階層コンテクストでもないが(S38:NO,S39:NO)、前回決定コンテクストから1つ下の階層に移動している(S40:YES)。そこで、スピードは、記憶されている値である「1.2」に「0.1」が加算されて「1.3」とされる(S43)。応答文「狩野派のどんな作品があったの?」が決定され(S20)、変更後の属性で音声合成が行われ(S21)、応答文が出力される(S22)。
Next, an input sentence of
次いで、対話番号6の入力文「狩野永徳っていう人の作品がメインに展示されていたよ。」が入力される(S4:YES)。「狩野永徳」がキーワードとして抽出される(S7)。「狩野永徳」はコンテクストID「0400−0304」のコンテクスト名「画家」のコンテクストに対応付けられているので(図2参照)、決定コンテクストIDは「0400−0304」とされる(S8)。前回の決定コンテクストは「0304−0202」であるので、コンテクストに変化がある(S9:YES)。タイマ18による計測時間が5分未満であり(S13:NO)、決定コンテクストは、特定階層コンテクスト(最下層)である(S39:YES)。そこで、声質は「0.4」に変更される(S42)。応答文「狩野永徳の代表作は?」が決定され(S20)、変更後の属性で音声合成が行われ(S21)、応答文が出力される(S22)。
Next, an input sentence of
次いで、対話番号7の入力文「国宝の洛中洛外図屏風かなぁ」が入力される(S4:YES)。「洛中洛外図屏風」がキーワードとして抽出される(S7)。「洛中洛外図屏風」はコンテクストID「0401−0304」のコンテクスト名「作品」のコンテクストに対応付けられているので(図2参照)、決定コンテクストIDは「0401−0304」とされる(S8)。前回の決定コンテクストは「0400−0304」であるので、コンテクストに変化がある(S9:YES)。タイマ18による計測時間が5分未満であり(S13:NO)、決定コンテクストは、特定階層コンテクスト(最下層)である(S39:YES)。そこで、声質は「0.4」に変更される(S42)。応答文「どこにある絵なの?」が決定され(S20)、変更後の属性で音声合成が行われ(S21)、応答文が出力される(S22)。
Next, the input sentence of the
次いで、対話番号8の入力文「どこだったかな、わすれちゃった。バイバイ。」が入力される(S4:YES)。「バイバイ」が終了指示となり(S6:YES)、ユーザと音声対話エージェントとの対話が終了する。
Next, the input sentence of
以上のようにして、ユーザと音声対話エージェントとの会話の内容(コンテクスト)に応じて、音声対話エージェントの出力音声を変更することができる。よって、音声対話エージェントの出力音声がコンテクストに見合った音声となるので、自然な対話を行うことができる。 As described above, the output voice of the voice interaction agent can be changed according to the content (context) of the conversation between the user and the voice interaction agent. Therefore, since the output voice of the voice dialogue agent becomes a voice commensurate with the context, a natural dialogue can be performed.
コンテクストに相応しい属性を示す音声属性情報を、コンテクストに対応させて記憶しておけば、コンテクスト、つまり会話の内容に相応しい音声を出力することができる。よって、コンテクストの変化に応じて、出力音声を会話の内容に相応しい音声に切り替えることができる。したがって、ユーザは、会話の内容と音声とに違和感を抱くことなく、自然な会話を行うことができる。 If voice attribute information indicating attributes suitable for the context is stored in association with the context, it is possible to output a voice suitable for the context, that is, the content of the conversation. Therefore, the output sound can be switched to a sound suitable for the content of the conversation according to the change in context. Therefore, the user can have a natural conversation without feeling uncomfortable with the content and voice of the conversation.
音声対話装置100と会話をしているユーザは、会話のコンテクストの階層を、出力される音声によって把握することができる。よって、ユーザは、会話の内容の変化状況を把握しながら会話することができ、会話を楽しむ一助となる。例えば、特定の階層を最も下位の階層とすれば、ユーザは、それ以上コンテクストが詳細な内容に変化することがないことを知ることができる。また、特定の階層を最も上位の階層とすれば、ユーザは、会話をより詳細な内容に移行させることが可能である旨を知ることができる。また、所定の階層のコンテクストに何らかの意味を持たせるように、ツリー構造の構築に工夫を施せば、音声の属性の変化によって、ユーザに何らかの意味を伝えることができる。
A user having a conversation with the voice
ユーザは、音声対話装置100から出力される音声によって、会話の内容が深くなったり、浅くなったり、同レベルのコンテクストで変化していたりする状況が分かる。よって、ユーザは、会話の内容の変化状況を把握しながら会話することができ、会話を楽しむ一助となる。
The user can understand a situation in which the content of the conversation becomes deeper, shallower, or changes in the context of the same level by the voice output from the voice
音声対話装置100と会話をしているユーザは、音声対話装置100から出力される音声により、コンテクストが所定時間内に何度も切り替わったことがわかる。よって、ユーザは、会話の内容の変化状況を感じながら会話することができ、会話を楽しむ一助となる。
The user who is having a conversation with the voice
音声対話装置100と会話をしているユーザは、音声対話装置100から出力される音声により、同一のコンテクストが所定時間以上継続していることがわかる。コンテクストの変化がなかったとしても出力音声の属性が変化するので、会話を楽しむ一助となる。
A user having a conversation with the voice
上記実施の形態におけるHDD13のコンテクストツリー記憶エリア131が「コンテクスト記憶手段」に該当する。そして、RAM11の属性記憶エリア113が「属性記憶手段」に該当する。HDD13の属性情報記憶エリア132が「属性情報記憶手段」に該当する。マイク27が「音声入力手段」に相当し、スピーカ26が「音声出力手段」に相当する。そして、図7に示すフローチャートのS5において、入力された音声を文字に変換する処理を行うCPU10が「変換手段」に相当する。S7において、入力された音声の文字列からキーワードを抽出し、S8において、キーワードに基づいてコンテクストを決定する処理を行うCPU10が「コンテクスト決定手段」に相当する。S20において、応答文を決定する処理を行うCPU10が「会話文決定手段」に相当する。S9において、決定コンテクストに変化があったか否かの判断を行うCPU10が「判断手段」に相当する。S21,S22において、属性記憶エリア113に記憶されている音声の属性に基づいて音声合成を行い、スピーカ26に音声を出力させるCPU10が「出力制御手段」に相当する。
The context
なお、本発明の音声対話装置及び音声対話システムは、上記した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加え得ることは勿論である。上記実施の形態では、音声対話プログラムを搭載した音声対話装置を所謂パーソナルコンピュータとしたが、音声対話プログラムを搭載する装置はパーソナルコンピュータでなくともよい。例えば、携帯型の端末、携帯電話、テレビでもよく、音声を入力するマイク、音声を出力するスピーカを備えていればよい。 It should be noted that the voice interaction apparatus and the voice interaction system of the present invention are not limited to the above-described embodiments, and it is needless to say that various modifications can be made without departing from the gist of the present invention. In the above-described embodiment, the voice interaction device having the voice interaction program is a so-called personal computer. However, the device having the voice interaction program need not be a personal computer. For example, a portable terminal, a mobile phone, or a television may be used as long as a microphone for inputting sound and a speaker for outputting sound are provided.
図2及び図3に示したコンテクストツリーは一例であり、必ずしもこの例のコンテクストツリーを採用する必要はない。実際にユーザと音声対話エージェントとの会話に相応しい音声を出力するためには、さらに多くの分野のコンテクストを作成し、細分化、深層化したコンテクストツリーを用いることが望ましい。属性情報記憶エリア132に記憶されている音声属性情報も、細かい設定を行うほど、ユーザと音声対話エージェントとの会話にさらに相応しい音声を出力することができる。コンテクストツリーの構成を工夫すれば、さらに相応しい音声で対応を行うことができる。なお、同一階層のコンテクストを100以上に増やす場合には、コンテクストIDの桁数を増やす必要がある。また、コンテクストIDの付与法則は上記実施の形態の法則に限らない。ユーザがコンテクストツリーにコンテクスト及びキーワードを追加できるように音声対話装置を構成してもよい。この場合には、入力装置(キーボードやマウス)24によって文字列を受け付ければよい。
The context tree shown in FIGS. 2 and 3 is an example, and the context tree of this example is not necessarily adopted. In order to actually output a sound suitable for the conversation between the user and the voice interaction agent, it is desirable to create a context in many fields, and use a subdivided and deepened context tree. As the voice attribute information stored in the attribute
上記実施の形態では、入力文からキーワードが抽出され、入力文中に最初に出現したキーワードに基づいてコンテクストが決定された。しかしながら、コンテクストの決定に使用するキーワードは、最初に出現したキーワードに限られない。例えば、複数のキーワードが入力文中に存在する場合には、それぞれのキーワードが対応付けられたコンテクストのうち、階層が最下位のコンテクストを決定コンテクストとしてもよい。同一のキーワードが複数のコンテクストに対応付けられている場合には、対話の流れを考慮して、前回の対話のコンテクストに応じて決定コンテクストを決定してもよい。例えば、「プログラム」というキーワードが、コンテクスト名「コンサート」とコンテクスト名「コンピュータ」との両方に割り当てられていたとする。この場合、前回の対話のコンテクストが「音楽」であれば、決定コンテクストは「コンサート」とすればよい。 In the above embodiment, the keywords are extracted from the input sentence, and the context is determined based on the keyword that first appears in the input sentence. However, the keyword used to determine the context is not limited to the keyword that appears first. For example, when a plurality of keywords are present in the input sentence, the context having the lowest hierarchy among the contexts associated with the respective keywords may be used as the determination context. When the same keyword is associated with a plurality of contexts, the determination context may be determined according to the context of the previous dialog in consideration of the flow of the dialog. For example, assume that the keyword “program” is assigned to both the context name “concert” and the context name “computer”. In this case, if the context of the previous dialogue is “music”, the determined context may be “concert”.
上記実施の形態では、移動前の決定コンテクストから見て、移動後の決定コンテクストが親である場合、親の親である場合、子である場合、及び子の子である場合に音声の属性が変更される。しかし、移動前後の決定コンテクストが親と子である場合のみ属性を変更してもよい。4世代以上離れた関係である場合にも属性を変更してもよい。 In the above-described embodiment, when the determination context after movement is a parent, when the determination context after movement is a parent, when it is a parent, when it is a child, and when it is a child of a child, the audio attribute is Be changed. However, the attribute may be changed only when the determination context before and after the movement is a parent and a child. The attribute may be changed even when the relationship is more than four generations away.
上記実施の形態では、移動前後の決定コンテクストが共に同じ階層に属し、且つ識別番号が1つ異なる場合に、音声の属性が変更される。しかし、移動前後の決定コンテクストが共に同じ階層に属する場合には、識別番号に関わらず属性を変更してもよい。移動前後の決定コンテクストが共に同じ階層に属し、且つ親が同一である場合に属性を変更してもよい。 In the above embodiment, the voice attributes are changed when the determination contexts before and after the movement belong to the same hierarchy and the identification numbers are different by one. However, when the determination contexts before and after the movement belong to the same hierarchy, the attribute may be changed regardless of the identification number. The attribute may be changed when the determination contexts before and after the movement belong to the same hierarchy and the parent is the same.
10 CPU
13 ハードディスク装置
16 音声出力制御部
17 音声入力制御部
26 スピーカ
27 マイク
100 音声対話装置
111 現在決定コンテクスト記憶エリア
113 属性記憶エリア
131 コンテクストツリー記憶エリア
132 属性情報記憶エリア
133 音響モデル記憶エリア
134 音声対話プログラム記憶エリア
1321 第一属性情報記憶エリア
1322 第二属性情報記憶エリア
1323 第三属性情報記憶エリア
10 CPU
13
Claims (7)
前記音声入力手段によって入力された音声である入力音声を文字列に変換する変換手段と、
会話のコンテクストをキーワードに対応させて記憶するコンテクスト記憶手段と、
前記変換手段により変換された文字列である変換文字列から前記コンテクスト記憶手段に記憶されているキーワードを抽出し、抽出された前記キーワードに対応して前記コンテクスト記憶手段に記憶されている前記コンテクストを前記入力音声のコンテクストに決定するコンテクスト決定手段と、
前記入力音声に応じた会話文を決定する会話文決定手段と、
音声を出力する音声出力手段と、
前記音声出力手段によって出力される音声の属性を記憶する属性記憶手段と、
前記属性記憶手段に記憶された属性で、前記会話文決定手段によって決定された前記会話文を前記音声出力手段に音声出力させる出力制御手段と、
前記コンテクスト決定手段によって決定された前記コンテクストである決定コンテクストが、前記コンテクスト決定手段によって前回決定された前記コンテクストである前回決定コンテクストから変化したか否かを判断する判断手段と、
前記判断手段によって前記決定コンテクストが変化したと判断された場合に、前記属性記憶手段に記憶されている音声の属性を変更する属性変更手段とを備えたことを特徴とする音声対話装置。 Voice input means for inputting voice;
Conversion means for converting an input voice, which is a voice input by the voice input means, into a character string;
A context storage means for storing a conversation context corresponding to a keyword;
A keyword stored in the context storage unit is extracted from a converted character string that is a character string converted by the conversion unit, and the context stored in the context storage unit is associated with the extracted keyword. Context determining means for determining the context of the input voice;
A conversation sentence determining means for determining a conversation sentence according to the input voice;
Audio output means for outputting audio;
Attribute storage means for storing attributes of the sound output by the sound output means;
Output control means for causing the voice output means to output the conversation sentence determined by the conversation sentence determination means with the attribute stored in the attribute storage means;
A determination unit that determines whether or not the determination context that is the context determined by the context determination unit has changed from the previous determination context that is the context determined by the context determination unit;
A voice dialogue apparatus comprising: attribute changing means for changing a voice attribute stored in the attribute storage means when the determination means determines that the determination context has changed.
前記属性変更手段は、前記決定コンテクストが前記属性情報記憶手段に前記音声属性情報が記憶されているコンテクストに変化した場合に、前記属性記憶手段に記憶されている音声の属性を、前記決定コンテクストに対応した前記音声属性情報の示す音声の属性に変更する請求項1に記載の音声対話装置。 Attribute information storage means for storing audio attribute information related to audio attributes output by the audio output means in association with the context;
The attribute change means, when the decision context is changed to a context in which the voice attribute information is stored in the attribute information storage means, converts the voice attribute stored in the attribute storage means to the decision context. The voice interactive apparatus according to claim 1, wherein the voice dialog device changes to a voice attribute indicated by the corresponding voice attribute information.
前記属性変更手段は、前記決定コンテクストと前記前回決定コンテクストとが前記ツリー構造の親子関係にある場合、又は同じ階層に属する場合に音声の属性を変更する請求項1又は2に記載の音声対話装置。 The data structure of the context storage means is a tree structure, and as the hierarchy of the tree structure progresses from upper to lower, a plurality of contexts are stored so that detailed conversation contents are obtained.
3. The spoken dialogue apparatus according to claim 1, wherein the attribute changing unit changes a voice attribute when the decision context and the previous decision context are in a parent-child relationship of the tree structure or belong to the same hierarchy. .
前記属性変更手段は、前記決定コンテクストが前記ツリー構造の所定の階層のコンテクストとなった場合に音声の属性を変更する請求項1又は2に記載の音声対話装置。 The data structure of the context storage means is a tree structure, and as the hierarchy of the tree structure progresses from upper to lower, a plurality of contexts are stored so that detailed conversation contents are obtained.
The voice interaction apparatus according to claim 1, wherein the attribute changing unit changes a voice attribute when the determined context becomes a context of a predetermined hierarchy of the tree structure.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008317700A JP2009186989A (en) | 2008-01-10 | 2008-12-12 | Voice interactive device and voice interactive program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008002851 | 2008-01-10 | ||
JP2008317700A JP2009186989A (en) | 2008-01-10 | 2008-12-12 | Voice interactive device and voice interactive program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009186989A true JP2009186989A (en) | 2009-08-20 |
Family
ID=40852985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008317700A Pending JP2009186989A (en) | 2008-01-10 | 2008-12-12 | Voice interactive device and voice interactive program |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2009186989A (en) |
WO (1) | WO2009087860A1 (en) |
Cited By (155)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013113966A (en) * | 2011-11-28 | 2013-06-10 | Toyota Motor Corp | Interaction device, interaction method, interactive program |
KR101511833B1 (en) | 2010-01-18 | 2015-04-14 | 애플 인크. | Disambiguation based on active input elicitation by intelligent automated assistant |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9535906B2 (en) | 2008-07-31 | 2017-01-03 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
US9620104B2 (en) | 2013-06-07 | 2017-04-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9626955B2 (en) | 2008-04-05 | 2017-04-18 | Apple Inc. | Intelligent text-to-speech conversion |
US9633674B2 (en) | 2013-06-07 | 2017-04-25 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9633660B2 (en) | 2010-02-25 | 2017-04-25 | Apple Inc. | User profiling for voice input processing |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9646614B2 (en) | 2000-03-16 | 2017-05-09 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9798393B2 (en) | 2011-08-29 | 2017-10-24 | Apple Inc. | Text correction processing |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9953088B2 (en) | 2012-05-14 | 2018-04-24 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9966068B2 (en) | 2013-06-08 | 2018-05-08 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10083690B2 (en) | 2014-05-30 | 2018-09-25 | Apple Inc. | Better resolution when referencing to concepts |
US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
US10102359B2 (en) | 2011-03-21 | 2018-10-16 | Apple Inc. | Device access using voice authentication |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10169329B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Exemplar-based natural language processing |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10185542B2 (en) | 2013-06-09 | 2019-01-22 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10283110B2 (en) | 2009-07-02 | 2019-05-07 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US10332518B2 (en) | 2017-05-09 | 2019-06-25 | Apple Inc. | User interface for correcting recognition errors |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10403283B1 (en) | 2018-06-01 | 2019-09-03 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US10568032B2 (en) | 2007-04-03 | 2020-02-18 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10607141B2 (en) | 2010-01-25 | 2020-03-31 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10643611B2 (en) | 2008-10-02 | 2020-05-05 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10684703B2 (en) | 2018-06-01 | 2020-06-16 | Apple Inc. | Attention aware virtual assistant dismissal |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10699717B2 (en) | 2014-05-30 | 2020-06-30 | Apple Inc. | Intelligent assistant for home automation |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10714117B2 (en) | 2013-02-07 | 2020-07-14 | Apple Inc. | Voice trigger for a digital assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10748546B2 (en) | 2017-05-16 | 2020-08-18 | Apple Inc. | Digital assistant services based on device capabilities |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10789945B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Low-latency intelligent automated assistant |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11010127B2 (en) | 2015-06-29 | 2021-05-18 | Apple Inc. | Virtual assistant for media playback |
US11023513B2 (en) | 2007-12-20 | 2021-06-01 | Apple Inc. | Method and apparatus for searching using an active ontology |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US11069336B2 (en) | 2012-03-02 | 2021-07-20 | Apple Inc. | Systems and methods for name pronunciation |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US11217251B2 (en) | 2019-05-06 | 2022-01-04 | Apple Inc. | Spoken notifications |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US11231904B2 (en) | 2015-03-06 | 2022-01-25 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11269678B2 (en) | 2012-05-15 | 2022-03-08 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11314370B2 (en) | 2013-12-06 | 2022-04-26 | Apple Inc. | Method for extracting salient dialog usage from live data |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11468282B2 (en) | 2015-05-15 | 2022-10-11 | Apple Inc. | Virtual assistant in a communication session |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11495218B2 (en) | 2018-06-01 | 2022-11-08 | Apple Inc. | Virtual assistant operation in multi-device environments |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110875059B (en) * | 2018-08-31 | 2022-08-05 | 深圳市优必选科技有限公司 | Method and device for judging reception end and storage device |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002032370A (en) * | 2000-07-18 | 2002-01-31 | Fujitsu Ltd | Information processor |
JP2005241952A (en) * | 2004-02-26 | 2005-09-08 | Gap Kk | Device, method, and program for knowledge processing |
JP2006010845A (en) * | 2004-06-23 | 2006-01-12 | Nippon Hoso Kyokai <Nhk> | Synthesized speech uttering device and program thereof, and data set generating device for speech synthesis, and program thereof |
JP2007272773A (en) * | 2006-03-31 | 2007-10-18 | Xing Inc | Interactive interface control system |
-
2008
- 2008-12-12 WO PCT/JP2008/072703 patent/WO2009087860A1/en active Application Filing
- 2008-12-12 JP JP2008317700A patent/JP2009186989A/en active Pending
Cited By (225)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9646614B2 (en) | 2000-03-16 | 2017-05-09 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US10318871B2 (en) | 2005-09-08 | 2019-06-11 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US11928604B2 (en) | 2005-09-08 | 2024-03-12 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US10568032B2 (en) | 2007-04-03 | 2020-02-18 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US11023513B2 (en) | 2007-12-20 | 2021-06-01 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US10381016B2 (en) | 2008-01-03 | 2019-08-13 | Apple Inc. | Methods and apparatus for altering audio output signals |
US9865248B2 (en) | 2008-04-05 | 2018-01-09 | Apple Inc. | Intelligent text-to-speech conversion |
US9626955B2 (en) | 2008-04-05 | 2017-04-18 | Apple Inc. | Intelligent text-to-speech conversion |
US10108612B2 (en) | 2008-07-31 | 2018-10-23 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US9535906B2 (en) | 2008-07-31 | 2017-01-03 | Apple Inc. | Mobile device having human language translation capability with positional feedback |
US10643611B2 (en) | 2008-10-02 | 2020-05-05 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US11348582B2 (en) | 2008-10-02 | 2022-05-31 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10795541B2 (en) | 2009-06-05 | 2020-10-06 | Apple Inc. | Intelligent organization of tasks items |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US11080012B2 (en) | 2009-06-05 | 2021-08-03 | Apple Inc. | Interface for a virtual digital assistant |
US10475446B2 (en) | 2009-06-05 | 2019-11-12 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10283110B2 (en) | 2009-07-02 | 2019-05-07 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
KR101511833B1 (en) | 2010-01-18 | 2015-04-14 | 애플 인크. | Disambiguation based on active input elicitation by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10741185B2 (en) | 2010-01-18 | 2020-08-11 | Apple Inc. | Intelligent automated assistant |
US9548050B2 (en) | 2010-01-18 | 2017-01-17 | Apple Inc. | Intelligent automated assistant |
US10706841B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Task flow identification based on user intent |
US11423886B2 (en) | 2010-01-18 | 2022-08-23 | Apple Inc. | Task flow identification based on user intent |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10984326B2 (en) | 2010-01-25 | 2021-04-20 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10607141B2 (en) | 2010-01-25 | 2020-03-31 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10984327B2 (en) | 2010-01-25 | 2021-04-20 | New Valuexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US10607140B2 (en) | 2010-01-25 | 2020-03-31 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US11410053B2 (en) | 2010-01-25 | 2022-08-09 | Newvaluexchange Ltd. | Apparatuses, methods and systems for a digital conversation management platform |
US9633660B2 (en) | 2010-02-25 | 2017-04-25 | Apple Inc. | User profiling for voice input processing |
US10692504B2 (en) | 2010-02-25 | 2020-06-23 | Apple Inc. | User profiling for voice input processing |
US10049675B2 (en) | 2010-02-25 | 2018-08-14 | Apple Inc. | User profiling for voice input processing |
US10417405B2 (en) | 2011-03-21 | 2019-09-17 | Apple Inc. | Device access using voice authentication |
US10102359B2 (en) | 2011-03-21 | 2018-10-16 | Apple Inc. | Device access using voice authentication |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US11120372B2 (en) | 2011-06-03 | 2021-09-14 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US11350253B2 (en) | 2011-06-03 | 2022-05-31 | Apple Inc. | Active transport based notifications |
US9798393B2 (en) | 2011-08-29 | 2017-10-24 | Apple Inc. | Text correction processing |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
JP2013113966A (en) * | 2011-11-28 | 2013-06-10 | Toyota Motor Corp | Interaction device, interaction method, interactive program |
US11069336B2 (en) | 2012-03-02 | 2021-07-20 | Apple Inc. | Systems and methods for name pronunciation |
US9953088B2 (en) | 2012-05-14 | 2018-04-24 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US11269678B2 (en) | 2012-05-15 | 2022-03-08 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US10079014B2 (en) | 2012-06-08 | 2018-09-18 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9971774B2 (en) | 2012-09-19 | 2018-05-15 | Apple Inc. | Voice-based media searching |
US10978090B2 (en) | 2013-02-07 | 2021-04-13 | Apple Inc. | Voice trigger for a digital assistant |
US10714117B2 (en) | 2013-02-07 | 2020-07-14 | Apple Inc. | Voice trigger for a digital assistant |
US9966060B2 (en) | 2013-06-07 | 2018-05-08 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9633674B2 (en) | 2013-06-07 | 2017-04-25 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
US9620104B2 (en) | 2013-06-07 | 2017-04-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
US9966068B2 (en) | 2013-06-08 | 2018-05-08 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10657961B2 (en) | 2013-06-08 | 2020-05-19 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10769385B2 (en) | 2013-06-09 | 2020-09-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US11048473B2 (en) | 2013-06-09 | 2021-06-29 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
US10185542B2 (en) | 2013-06-09 | 2019-01-22 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US11314370B2 (en) | 2013-12-06 | 2022-04-26 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10657966B2 (en) | 2014-05-30 | 2020-05-19 | Apple Inc. | Better resolution when referencing to concepts |
US10417344B2 (en) | 2014-05-30 | 2019-09-17 | Apple Inc. | Exemplar-based natural language processing |
US10169329B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Exemplar-based natural language processing |
US10699717B2 (en) | 2014-05-30 | 2020-06-30 | Apple Inc. | Intelligent assistant for home automation |
US10083690B2 (en) | 2014-05-30 | 2018-09-25 | Apple Inc. | Better resolution when referencing to concepts |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10714095B2 (en) | 2014-05-30 | 2020-07-14 | Apple Inc. | Intelligent assistant for home automation |
US11133008B2 (en) | 2014-05-30 | 2021-09-28 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10497365B2 (en) | 2014-05-30 | 2019-12-03 | Apple Inc. | Multi-command single utterance input method |
US10878809B2 (en) | 2014-05-30 | 2020-12-29 | Apple Inc. | Multi-command single utterance input method |
US11257504B2 (en) | 2014-05-30 | 2022-02-22 | Apple Inc. | Intelligent assistant for home automation |
US10904611B2 (en) | 2014-06-30 | 2021-01-26 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668024B2 (en) | 2014-06-30 | 2017-05-30 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10431204B2 (en) | 2014-09-11 | 2019-10-01 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10390213B2 (en) | 2014-09-30 | 2019-08-20 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10453443B2 (en) | 2014-09-30 | 2019-10-22 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9986419B2 (en) | 2014-09-30 | 2018-05-29 | Apple Inc. | Social reminders |
US10438595B2 (en) | 2014-09-30 | 2019-10-08 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US11556230B2 (en) | 2014-12-02 | 2023-01-17 | Apple Inc. | Data detection |
US11231904B2 (en) | 2015-03-06 | 2022-01-25 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US11087759B2 (en) | 2015-03-08 | 2021-08-10 | Apple Inc. | Virtual assistant activation |
US10529332B2 (en) | 2015-03-08 | 2020-01-07 | Apple Inc. | Virtual assistant activation |
US10930282B2 (en) | 2015-03-08 | 2021-02-23 | Apple Inc. | Competing devices responding to voice triggers |
US10311871B2 (en) | 2015-03-08 | 2019-06-04 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US11468282B2 (en) | 2015-05-15 | 2022-10-11 | Apple Inc. | Virtual assistant in a communication session |
US11127397B2 (en) | 2015-05-27 | 2021-09-21 | Apple Inc. | Device voice control |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10356243B2 (en) | 2015-06-05 | 2019-07-16 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10681212B2 (en) | 2015-06-05 | 2020-06-09 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11010127B2 (en) | 2015-06-29 | 2021-05-18 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US11500672B2 (en) | 2015-09-08 | 2022-11-15 | Apple Inc. | Distributed personal assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US11526368B2 (en) | 2015-11-06 | 2022-12-13 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10354652B2 (en) | 2015-12-02 | 2019-07-16 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10942703B2 (en) | 2015-12-23 | 2021-03-09 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11069347B2 (en) | 2016-06-08 | 2021-07-20 | Apple Inc. | Intelligent automated assistant for media exploration |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10354011B2 (en) | 2016-06-09 | 2019-07-16 | Apple Inc. | Intelligent automated assistant in a home environment |
US11037565B2 (en) | 2016-06-10 | 2021-06-15 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10733993B2 (en) | 2016-06-10 | 2020-08-04 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10089072B2 (en) | 2016-06-11 | 2018-10-02 | Apple Inc. | Intelligent device arbitration and control |
US10297253B2 (en) | 2016-06-11 | 2019-05-21 | Apple Inc. | Application integration with a digital assistant |
US11152002B2 (en) | 2016-06-11 | 2021-10-19 | Apple Inc. | Application integration with a digital assistant |
US10269345B2 (en) | 2016-06-11 | 2019-04-23 | Apple Inc. | Intelligent task discovery |
US10580409B2 (en) | 2016-06-11 | 2020-03-03 | Apple Inc. | Application integration with a digital assistant |
US10942702B2 (en) | 2016-06-11 | 2021-03-09 | Apple Inc. | Intelligent device arbitration and control |
US10521466B2 (en) | 2016-06-11 | 2019-12-31 | Apple Inc. | Data driven natural language event detection and classification |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10553215B2 (en) | 2016-09-23 | 2020-02-04 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US11656884B2 (en) | 2017-01-09 | 2023-05-23 | Apple Inc. | Application integration with a digital assistant |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10332518B2 (en) | 2017-05-09 | 2019-06-25 | Apple Inc. | User interface for correcting recognition errors |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10741181B2 (en) | 2017-05-09 | 2020-08-11 | Apple Inc. | User interface for correcting recognition errors |
US10755703B2 (en) | 2017-05-11 | 2020-08-25 | Apple Inc. | Offline personal assistant |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10847142B2 (en) | 2017-05-11 | 2020-11-24 | Apple Inc. | Maintaining privacy of personal information |
US10410637B2 (en) | 2017-05-12 | 2019-09-10 | Apple Inc. | User-specific acoustic models |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
US11405466B2 (en) | 2017-05-12 | 2022-08-02 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10791176B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Synchronization and task delegation of a digital assistant |
US10789945B2 (en) | 2017-05-12 | 2020-09-29 | Apple Inc. | Low-latency intelligent automated assistant |
US10482874B2 (en) | 2017-05-15 | 2019-11-19 | Apple Inc. | Hierarchical belief states for digital assistants |
US10810274B2 (en) | 2017-05-15 | 2020-10-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10748546B2 (en) | 2017-05-16 | 2020-08-18 | Apple Inc. | Digital assistant services based on device capabilities |
US11217255B2 (en) | 2017-05-16 | 2022-01-04 | Apple Inc. | Far-field extension for digital assistant services |
US10909171B2 (en) | 2017-05-16 | 2021-02-02 | Apple Inc. | Intelligent automated assistant for media exploration |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US10403283B1 (en) | 2018-06-01 | 2019-09-03 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10684703B2 (en) | 2018-06-01 | 2020-06-16 | Apple Inc. | Attention aware virtual assistant dismissal |
US10984798B2 (en) | 2018-06-01 | 2021-04-20 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US11495218B2 (en) | 2018-06-01 | 2022-11-08 | Apple Inc. | Virtual assistant operation in multi-device environments |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US10720160B2 (en) | 2018-06-01 | 2020-07-21 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US11009970B2 (en) | 2018-06-01 | 2021-05-18 | Apple Inc. | Attention aware virtual assistant dismissal |
US10504518B1 (en) | 2018-06-03 | 2019-12-10 | Apple Inc. | Accelerated task performance |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US10944859B2 (en) | 2018-06-03 | 2021-03-09 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11217251B2 (en) | 2019-05-06 | 2022-01-04 | Apple Inc. | Spoken notifications |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11237797B2 (en) | 2019-05-31 | 2022-02-01 | Apple Inc. | User activity shortcut suggestions |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360739B2 (en) | 2019-05-31 | 2022-06-14 | Apple Inc. | User activity shortcut suggestions |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
Also Published As
Publication number | Publication date |
---|---|
WO2009087860A1 (en) | 2009-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2009087860A1 (en) | Voice interactive device and computer-readable medium containing voice interactive program | |
JP3679350B2 (en) | Program, information storage medium and computer system | |
JP4395687B2 (en) | Information processing device | |
WO2017168870A1 (en) | Information processing device and information processing method | |
CN104899240B (en) | Voice search device, speech search method | |
CN101622659A (en) | Voice tone editing device and voice tone editing method | |
JP6076418B2 (en) | Electronic device and comic production method | |
JP2008083100A (en) | Voice interactive device and method therefor | |
US11574633B1 (en) | Enhanced graphical user interface for voice communications | |
WO2014073612A1 (en) | Conversation-sentence generation device, conversation-sentence generation method, and conversation-sentence generation program | |
CN110782869A (en) | Speech synthesis method, apparatus, system and storage medium | |
JP2013196661A (en) | Input control program, input control device, input control system and input control method | |
WO2014073613A1 (en) | Conversation-sentence generation device, conversation-sentence generation method, and conversation-sentence generation program | |
CN111653265A (en) | Speech synthesis method, speech synthesis device, storage medium and electronic equipment | |
JP2022020659A (en) | Method and system for recognizing feeling during conversation, and utilizing recognized feeling | |
JP6176041B2 (en) | Information processing apparatus and program | |
KR101891495B1 (en) | Method and computer device for controlling a display to display conversational response candidates to a user utterance input, and computer readable recording medium | |
JP2006251042A (en) | Information processor, information processing method and program | |
US20210081164A1 (en) | Electronic apparatus and method for providing manual thereof | |
JP2013239021A (en) | Conference support system and method, computer program, and recording medium | |
JP7230085B2 (en) | Method and device, electronic device, storage medium and computer program for processing sound | |
JP5488200B2 (en) | Dialog apparatus, dialog method, and program | |
Smith | Improvisation in Contemporary Experimental Poetry | |
JP4563418B2 (en) | Audio processing apparatus, audio processing method, and program | |
JP2017156553A (en) | Karaoke device and karaoke control program |