JP4114888B2 - 声質変化箇所特定装置 - Google Patents
声質変化箇所特定装置 Download PDFInfo
- Publication number
- JP4114888B2 JP4114888B2 JP2007525910A JP2007525910A JP4114888B2 JP 4114888 B2 JP4114888 B2 JP 4114888B2 JP 2007525910 A JP2007525910 A JP 2007525910A JP 2007525910 A JP2007525910 A JP 2007525910A JP 4114888 B2 JP4114888 B2 JP 4114888B2
- Authority
- JP
- Japan
- Prior art keywords
- voice quality
- quality change
- text
- voice
- change
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000008859 change Effects 0.000 title claims description 606
- 230000014509 gene expression Effects 0.000 claims description 209
- 238000004458 analytical method Methods 0.000 claims description 108
- 238000000034 method Methods 0.000 claims description 32
- 238000011156 evaluation Methods 0.000 claims description 19
- 238000003860 storage Methods 0.000 claims description 15
- 230000015572 biosynthetic process Effects 0.000 claims description 10
- 238000003786 synthesis reaction Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 2
- 210000001584 soft palate Anatomy 0.000 claims description 2
- 101100274346 Drosophila melanogaster mora gene Proteins 0.000 description 54
- 238000010586 diagram Methods 0.000 description 39
- 238000012545 processing Methods 0.000 description 33
- 230000000694 effects Effects 0.000 description 19
- 230000006870 function Effects 0.000 description 18
- 238000009826 distribution Methods 0.000 description 11
- 230000008451 emotion Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 230000002996 emotional effect Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000008921 facial expression Effects 0.000 description 7
- 238000005259 measurement Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000001419 dependent effect Effects 0.000 description 5
- 238000011002 quantification Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 230000007423 decrease Effects 0.000 description 4
- 210000000056 organ Anatomy 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 108700019579 mouse Ifi16 Proteins 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 240000000220 Panda oleosa Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
本発明の実施の形態1では、テキストに基づいて、声質の変化を推定し、声質が変化する部分の代替表現の候補を利用者に提示するテキスト編集装置について説明する。
図1において、テキスト編集装置は、入力されたテキストを読み手が読み上げた際に意図しない印象を他人に与えないように、当該テキストを編集する装置であり、テキスト入力部101と、言語解析部102と、声質変化推定部103と、声質変化推定モデル104と、声質変化部分判定部105と、代替表現検索部106と、代替表現データベース107と、表示部108とを備えている。
本発明の実施の形態2では、実施の形態1に示したテキスト編集装置の構成を基本とし、複数の声質の変化を同時に推定することができるテキスト編集装置について説明する。
図15において、テキスト編集装置は、入力されたテキストを読み手が読み上げた際に意図しない印象を他人に与えないように、当該テキストを編集する装置であり、テキスト入力部101と、言語解析部102と、声質変化推定部103Aと、声質変化推定モデルA104Aと、声質変化推定モデルB104Bと、声質変化部分判定部105Aと、代替表現検索部106Aと、代替表現データベース107と、表示部108Aとを備えている。
本発明の実施の形態3では、実施の形態1および2に示したテキスト編集装置の構成を基本とし、複数の利用者の各々について、複数の声質の変化を同時に推定することができるテキスト編集装置について説明する。
図18において、テキスト編集装置は、入力されたテキストを読み手が読み上げた際に意図しない印象を他人に与えないように、当該テキストを編集する装置であり、テキスト入力部101と、言語解析部102と、声質変化推定部103Aと、声質変化推定モデルセット1(1041)と、声質変化推定モデルセット2(1042)と、声質変化部分判定部105Aと、代替表現検索部106Aと、代替表現データベース107と、表示部108Aと、利用者特定情報入力部110と、スイッチ111とを備えている。
本発明の実施の形態4では、テキストを利用者が読み上げる際に、時間が経過するほど、のどの疲労等により声質の変化が起こりやすいという知見に基づいて構成されたテキスト編集装置について説明する。すなわち、利用者がテキストを読み進めるにつれて、声質変化が生じやすくなるようなテキスト編集装置について説明する。
図20において、テキスト編集装置は、入力されたテキストを読み手が読み上げた際に意図しない印象を他人に与えないように、当該テキストを編集する装置であり、テキスト入力部101と、言語解析部102と、声質変化推定部103と、声質変化推定モデル104と、声質変化部分判定部105Bと、代替表現検索部106と、代替表現データベース107と、表示部108Bと、話速入力部112と、経過時間測定部113と、総合判定部114とを備えている。
S’=S(1+T)/(1+2T)
とあらわされる式によって行うものとする。すなわち、時間が経過するにつれ、閾値が小さくなるように、閾値の修正が行なわれる。これは、上述したように、利用者がテキストを読み進めるにつれ、のどの疲労等により声質の変化が起こりやすくなるため、時間の経過につれ閾値を小さくし、声質変化が起こりやすいというフラグを付与しやすくするためである。
S’=S(1+T)/(1+2T)
によれば、時間の経過にしたがって、つまり、Tの増大にしたがって、修正後の閾値S’がS/2に向かって減少していくことになる。今、「6分ほど」と「10分ほど」との声質変化の起こりやすさの推定値がS*3/5であったとすると、読み始めから2分を経過するまでは修正後の閾値S’がS*3/5よりも大きいので、声質変化の起こりやすい箇所とは判定されないが、2分を超えると閾値S’がS*3/5よりも小さくなるので、声質変化が起こりやすい箇所と判定される。したがって、図22に示す例では、同じ声質変化の起こりやすさの推定値をもつアクセント句でも経過時間がある値より大きい場合にだけ声質変化の起こりやすい箇所として判断されるケースを表している。
本発明の実施の形態5では、入力されたテキストにおいて声質変化が発生すると推定された箇所と、実際に利用者が同じテキストを読み上げた際の声質変化の発声箇所との比較を行なうことができるテキスト編集装置について説明する。
図23において、テキスト評価装置は、入力されたテキストにおいて声質変化が発生すると推定された箇所と、実際に利用者が同じテキストを読み上げた際の声質変化の発声箇所との比較を行なう装置であり、テキスト入力部101と、言語解析部102と、声質変化推定部103と、声質変化推定モデル104と、声質変化部分判定部105と、表示部108Cと、総合判定部114Aと、音声入力部115と、音声認識部116と、音声分析部117とを備えている。
本発明の実施の形態6では、上述した実施の形態1〜5とは異なる声質変化の推定方法を備えるテキスト編集装置について説明する。
本発明の実施の形態7では、入力されたテキストのうち、声質変化が生じやすい表現を声質変化が生じにくい表現に変換したり、逆に声質変化が生じにくい表現を声質変化が生じやすい表現に変換したりした後に、変換後のテキストの合成音声を生成するテキスト読み上げ装置について説明する。
図30において、テキスト読み上げ装置は、テキスト入力部101と、言語解析部102と、声質変化推定部103と、声質変化推定モデル104と、声質変化部分判定部105と、代替表現検索部106と、代替表現データベース107と、代替表現ソート部109と、表現変換部118と、音声合成用言語解析部119と、音声合成部120と、音声出力部121とを備えている。
(2)子音が/m/(両唇音でかつ鼻音)であり、かつアクセント句の前から3番目のモーラ
(3)子音が/n/(歯茎音でかつ鼻音)であり、かつアクセント句の先頭モーラ
(4)子音が/d/(歯茎音でかつ有声破裂子音)であり、かつアクセント句の先頭モーラ
また、声質変化が「かすれ」の場合には、以下の(5)〜(8)に示すモーラで、推定式が閾値を超えやすい。
(5)子音が/h/(喉頭音でかつ無声摩擦音)であり、かつアクセント句の先頭のモーラまたはアクセント句の前から3番目のモーラ
(6)子音が/t/(歯茎音でかつ無声破裂音)であり、かつアクセント句の前から4番目のモーラ
(7)子音が/k/(軟口蓋音でかつ無声破裂音)であり、かつアクセント句の前から5番目のモーラ
(8)子音が/s/(歯音でかつ無声摩擦音)であり、かつアクセント句の前から6番目のモーラ
102,1020 言語解析部
103,103A,1030 声質変化推定部
104,104A,104B 声質変化推定モデル
105,105A,105B,1050 声質変化部分判定部
106,106A 代替表現検索部
107 代替表現データベース
108,108A,108B 表示部
109 代替表現ソート部
110 利用者特定情報入力部
111 スイッチ
112 話速入力部
113 経過時間測定部
114,114A 総合判定部
115 音声入力部
116 音声認識部
117 音声分析部
118 表現変換部
119 音声合成用言語解析部
120 音声合成部
121 音声出力部
1040 音韻別声質変化情報テーブル
1091 ソート部
Claims (17)
- テキストに対応する言語解析情報に基づいて、読み上げた際に声質が変化する可能性のある前記テキスト中の箇所を特定する装置であって、
音韻情報と韻律情報とに基づいて、声質変化の起こりやすさを判断するための規則を記憶する記憶手段と、
テキストに対応する音韻列を含む言語解析結果の記号列である言語解析情報の音韻情報および韻律情報と、前記規則とに基づいて、少なくとも1つの音韻列を含む入力記号列の所定の単位ごとに、前記テキストを読み上げた際の声質変化の起こりやすさを推定する声質変化推定手段と、
前記言語解析情報と前記声質変化推定手段による推定結果とに基づいて、声質変化の起こりやすいテキスト中の箇所を特定する声質変化箇所特定手段とを備える
ことを特徴とする声質変化箇所特定装置。 - 前記規則は、ユーザの音声について分析および統計的学習をすることにより得られる声質変化の推定モデルである
ことを特徴とする請求項1に記載の声質変化箇所特定装置。 - 前記声質変化推定手段は、ユーザの複数の発話様態の各々の音声について分析および統計的学習をすることにより得られる、声質変化の種類ごとに設けられる複数の推定モデルを用いて、前記言語解析情報の前記所定の単位ごとに前記各発話様態に基づく声質変化の起こりやすさを推定する
ことを特徴とする請求項1に記載の声質変化箇所特定装置。 - 前記声質変化推定手段は、複数ユーザにおける複数の音声について分析および統計的学習をすることによりそれぞれ得られる複数の声質変化の推定モデルを用いて、ユーザに対応した推定モデルを選択し、前記言語解析情報の前記所定の単位ごとに声質変化の起こりやすさを推定する
ことを特徴とする請求項1に記載の声質変化箇所特定装置。 - さらに、
言語表現の代替表現を記憶する代替表現記憶手段と、
前記声質変化の起こりやすいテキスト中の箇所の代替表現を、前記代替表現記憶手段より検索し、提示する代替表現提示手段とを備える
ことを特徴とする請求項1に記載の声質変化箇所特定装置。 - さらに、
言語表現の代替表現を記憶する代替表現記憶手段と、
前記声質変化箇所特定手段で特定された声質変化の起こりやすいテキスト中の箇所の代替表現を前記代替表現記憶手段より検索し、当該箇所を検索された代替表現で置換する声質変化箇所置換手段とを備える
ことを特徴とする請求項1に記載の声質変化箇所特定装置。 - さらに、前記声質変化箇所置換手段において代替表現に置換されたテキストを読み上げた音声を生成する音声合成手段を備える
ことを特徴とする請求項6に記載の声質変化箇所特定装置。 - さらに、前記声質変化箇所特定手段で特定された声質変化の起こりやすいテキスト中の箇所をユーザに提示する声質変化箇所提示手段を備える
ことを特徴とする請求項1に記載の声質変化箇所特定装置。 - さらに、テキストを言語解析し、音韻列を含む言語解析結果の記号列である言語解析情報を出力する言語解析手段を備える
ことを特徴とする請求項1に記載の声質変化箇所特定装置。 - 前記声質変化推定手段は、前記言語解析情報のうち、少なくとも、音韻の種類、アクセント句のモーラ数およびアクセント位置を入力として、前記所定の単位ごとに声質変化の起こりやすさを推定する
ことを特徴とする請求項1に記載の声質変化箇所特定装置。 - さらに、ユーザのテキストの読み上げ速度を示す話速情報に基づいて、前記テキストの所定位置における前記テキストの先頭からの読み上げの経過時間を計測する経過時間算出手段を備え、
前記声質変化推定手段は、さらに、前記経過時間を考慮することにより、前記所定の単位ごとに声質変化の起こりやすさを推定する
ことを特徴とする請求項1に記載の声質変化箇所特定装置。 - さらに、前記テキストの全部または一部に対する、前記声質変化箇所特定手段において特定された声質変化の起こりやすい前記テキストの箇所の割合を判断する声質変化割合判断手段を備える
ことを特徴とする請求項1に記載の声質変化箇所特定装置。 - さらに、
前記テキストをユーザが読み上げた音声を認識する音声認識手段と、
前記音声認識手段の音声認識結果に基づいて、利用者の音声の各音韻単位を含む所定の単位ごとに、声質変化の度合いを分析する音声分析手段と、
前記声質変化箇所特定手段で特定された声質変化の起こりやすい前記テキスト中の箇所と前記音声分析手段での分析結果とに基づいて、声質変化の起こりやすい前記テキスト中の箇所とユーザの音声中で声質変化が起こった箇所との比較を行うテキスト評価手段とを備える
ことを特徴とする請求項1に記載の声質変化箇所特定装置。 - 前記規則は、音韻ごとに声質変化の起こりやすさの程度を、数値によって表した音韻別声質変化テーブルであり、
前記声質変化推定手段は、前記音韻別声質変化テーブルを参照して、前記言語解析情報の前記所定の単位ごとに、当該所定の単位に含まれる音韻ごとに割り当てられた数値に基づいて、声質変化の起こりやすさを推定する
ことを特徴とする請求項1に記載の声質変化箇所特定装置。 - テキストに対応する言語解析情報に基づいて、読み上げた際に声質が変化する可能性のある前記テキスト中の箇所を特定する装置であって、
前記テキスト中で、(1)子音が/b/(両唇音でかつ有声破裂子音)であり、かつアクセント句の前から3番目のモーラ、(2)子音が/m/(両唇音でかつ鼻音)であり、かつアクセント句の前から3番目のモーラ、(3)子音が/n/(歯茎音でかつ鼻音)であり、かつアクセント句の先頭モーラ、(4)子音が/d/(歯茎音でかつ有声破裂子音)であり、かつアクセント句の先頭モーラを、声質変化が起こりやすい箇所であると特定し、(5)子音が/h/(喉頭音でかつ無声摩擦音)であり、かつアクセント句の先頭のモーラまたはアクセント句の前から3番目のモーラ、(6)子音が/t/(歯茎音でかつ無声破裂音)であり、かつアクセント句の前から4番目のモーラ、(7)子音が/k/(軟口蓋音でかつ無声破裂音)であり、かつアクセント句の前から5番目のモーラ、(8)子音が/s/(歯音でかつ無声摩擦音)であり、かつアクセント句の前から6番目のモーラを、声質変化が起こりやすい箇所であると特定する声質変化箇所特定手段を備える
ことを特徴とする声質変化箇所特定装置。 - テキストに対応する言語解析情報に基づいて、読み上げた際に声質が変化する可能性のある前記テキスト中の箇所を特定する方法であって、
音韻情報と韻律情報とに基づいて、声質変化の起こりやすさを判断するための規則と、テキストに対応する音韻列を含む言語解析結果の記号列である言語解析情報の音韻情報および韻律情報とに基づいて、少なくとも1つの音韻列を含む入力記号列の所定の単位ごとに、前記テキストを読み上げた際の声質変化の起こりやすさを推定するステップと、
前記言語解析情報と前記声質変化の起こりやすさの推定結果とに基づいて、声質変化の起こりやすいテキスト中の箇所を特定するステップとを含む
ことを特徴とする声質変化箇所特定方法。 - テキストに対応する言語解析情報に基づいて、読み上げた際に声質が変化する可能性のある前記テキスト中の箇所を特定する方法のプログラムであって、
音韻情報と韻律情報とに基づいて、声質変化の起こりやすさを判断するための規則と、テキストに対応する音韻列を含む言語解析結果の記号列である言語解析情報の音韻情報および韻律情報とに基づいて、少なくとも1つの音韻列を含む入力記号列の所定の単位ごとに、前記テキストを読み上げた際の声質変化の起こりやすさを推定するステップと、
前記言語解析情報と前記声質変化の起こりやすさの推定結果とに基づいて、声質変化の起こりやすいテキスト中の箇所を特定するステップとをコンピュータに実行させる
ことを特徴とするプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005209449 | 2005-07-20 | ||
JP2005209449 | 2005-07-20 | ||
PCT/JP2006/311205 WO2007010680A1 (ja) | 2005-07-20 | 2006-06-05 | 声質変化箇所特定装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP4114888B2 true JP4114888B2 (ja) | 2008-07-09 |
JPWO2007010680A1 JPWO2007010680A1 (ja) | 2009-01-29 |
Family
ID=37668567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007525910A Expired - Fee Related JP4114888B2 (ja) | 2005-07-20 | 2006-06-05 | 声質変化箇所特定装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7809572B2 (ja) |
JP (1) | JP4114888B2 (ja) |
CN (1) | CN101223571B (ja) |
WO (1) | WO2007010680A1 (ja) |
Families Citing this family (124)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US20080120093A1 (en) * | 2006-11-16 | 2008-05-22 | Seiko Epson Corporation | System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device |
JP4856560B2 (ja) * | 2007-01-31 | 2012-01-18 | 株式会社アルカディア | 音声合成装置 |
WO2008102594A1 (ja) * | 2007-02-19 | 2008-08-28 | Panasonic Corporation | 力み変換装置、音声変換装置、音声合成装置、音声変換方法、音声合成方法およびプログラム |
JP4914295B2 (ja) * | 2007-06-21 | 2012-04-11 | パナソニック株式会社 | 力み音声検出装置 |
JP5313466B2 (ja) * | 2007-06-28 | 2013-10-09 | ニュアンス コミュニケーションズ,インコーポレイテッド | 音声の再生に同期して音声の内容を表示させる技術 |
JP2009042509A (ja) * | 2007-08-09 | 2009-02-26 | Toshiba Corp | アクセント情報抽出装置及びその方法 |
JP4455633B2 (ja) * | 2007-09-10 | 2010-04-21 | 株式会社東芝 | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
US8145490B2 (en) * | 2007-10-24 | 2012-03-27 | Nuance Communications, Inc. | Predicting a resultant attribute of a text file before it has been converted into an audio file |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US10496753B2 (en) * | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8954328B2 (en) * | 2009-01-15 | 2015-02-10 | K-Nfb Reading Technology, Inc. | Systems and methods for document narration with multiple characters having multiple moods |
JP4769336B2 (ja) * | 2009-07-03 | 2011-09-07 | パナソニック株式会社 | 補聴器の調整装置、方法およびプログラム |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8392186B2 (en) | 2010-05-18 | 2013-03-05 | K-Nfb Reading Technology, Inc. | Audio synchronization for document narration with user-selected playback |
US20120016674A1 (en) * | 2010-07-16 | 2012-01-19 | International Business Machines Corporation | Modification of Speech Quality in Conversations Over Voice Channels |
US8630860B1 (en) * | 2011-03-03 | 2014-01-14 | Nuance Communications, Inc. | Speaker and call characteristic sensitive open voice search |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US9082414B2 (en) * | 2011-09-27 | 2015-07-14 | General Motors Llc | Correcting unintelligible synthesized speech |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9251809B2 (en) * | 2012-05-21 | 2016-02-02 | Bruce Reiner | Method and apparatus of speech analysis for real-time measurement of stress, fatigue, and uncertainty |
KR20150104615A (ko) | 2013-02-07 | 2015-09-15 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
JP5949607B2 (ja) * | 2013-03-15 | 2016-07-13 | ヤマハ株式会社 | 音声合成装置 |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
EP3008641A1 (en) | 2013-06-09 | 2016-04-20 | Apple Inc. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
JP6413220B2 (ja) * | 2013-10-15 | 2018-10-31 | ヤマハ株式会社 | 合成情報管理装置 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9642087B2 (en) * | 2014-12-18 | 2017-05-02 | Mediatek Inc. | Methods for reducing the power consumption in voice communications and communications apparatus utilizing the same |
JP6003972B2 (ja) * | 2014-12-22 | 2016-10-05 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US9653096B1 (en) * | 2016-04-19 | 2017-05-16 | FirstAgenda A/S | Computer-implemented method performed by an electronic data processing apparatus to implement a quality suggestion engine and data processing apparatus for the same |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
CN106384599B (zh) * | 2016-08-31 | 2018-09-04 | 广州酷狗计算机科技有限公司 | 一种破音识别的方法和装置 |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10217453B2 (en) * | 2016-10-14 | 2019-02-26 | Soundhound, Inc. | Virtual assistant configured by selection of wake-up phrase |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770429A1 (en) | 2017-05-12 | 2018-12-14 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
CN110767209B (zh) * | 2019-10-31 | 2022-03-15 | 标贝(北京)科技有限公司 | 语音合成方法、装置、系统和存储介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3485586B2 (ja) * | 1991-09-30 | 2004-01-13 | 三洋電機株式会社 | 音声合成方法 |
JPH0772900A (ja) | 1993-09-02 | 1995-03-17 | Nippon Hoso Kyokai <Nhk> | 音声合成の感情付与方法 |
JP3384646B2 (ja) * | 1995-05-31 | 2003-03-10 | 三洋電機株式会社 | 音声合成装置及び読み上げ時間演算装置 |
US6226614B1 (en) * | 1997-05-21 | 2001-05-01 | Nippon Telegraph And Telephone Corporation | Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon |
JP3287281B2 (ja) * | 1997-07-31 | 2002-06-04 | トヨタ自動車株式会社 | メッセージ処理装置 |
JP3587976B2 (ja) | 1998-04-09 | 2004-11-10 | 日本電信電話株式会社 | 情報出力装置および方法と情報出力プログラムを記録した記録媒体 |
WO2000030069A2 (en) * | 1998-11-13 | 2000-05-25 | Lernout & Hauspie Speech Products N.V. | Speech synthesis using concatenation of speech waveforms |
JP3706758B2 (ja) | 1998-12-02 | 2005-10-19 | 松下電器産業株式会社 | 自然言語処理方法,自然言語処理用記録媒体および音声合成装置 |
JP2000250907A (ja) | 1999-02-26 | 2000-09-14 | Fuji Xerox Co Ltd | 文書処理装置および記録媒体 |
EP1256932B1 (en) | 2001-05-11 | 2006-05-10 | Sony France S.A. | Method and apparatus for synthesising an emotion conveyed on a sound |
US20030093280A1 (en) * | 2001-07-13 | 2003-05-15 | Pierre-Yves Oudeyer | Method and apparatus for synthesising an emotion conveyed on a sound |
JP3738011B2 (ja) * | 2001-11-20 | 2006-01-25 | 株式会社ジャストシステム | 情報処理装置、情報処理方法、及び情報処理プログラム |
CN100524457C (zh) * | 2004-05-31 | 2009-08-05 | 国际商业机器公司 | 文本至语音转换以及调整语料库的装置和方法 |
-
2006
- 2006-06-05 JP JP2007525910A patent/JP4114888B2/ja not_active Expired - Fee Related
- 2006-06-05 US US11/996,234 patent/US7809572B2/en not_active Expired - Fee Related
- 2006-06-05 WO PCT/JP2006/311205 patent/WO2007010680A1/ja active Application Filing
- 2006-06-05 CN CN2006800263392A patent/CN101223571B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20090259475A1 (en) | 2009-10-15 |
CN101223571A (zh) | 2008-07-16 |
CN101223571B (zh) | 2011-05-18 |
JPWO2007010680A1 (ja) | 2009-01-29 |
US7809572B2 (en) | 2010-10-05 |
WO2007010680A1 (ja) | 2007-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4114888B2 (ja) | 声質変化箇所特定装置 | |
JP4559950B2 (ja) | 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム | |
JP5120826B2 (ja) | 発音診断装置、発音診断方法、記録媒体、及び、発音診断プログラム | |
Ten Bosch | Emotions, speech and the ASR framework | |
US7280968B2 (en) | Synthetically generated speech responses including prosodic characteristics of speech inputs | |
JP4085130B2 (ja) | 感情認識装置 | |
JP4745036B2 (ja) | 音声翻訳装置および音声翻訳方法 | |
JPWO2006123539A1 (ja) | 音声合成装置 | |
GB2376394A (en) | Speech synthesis apparatus and selection method | |
JP6720520B2 (ja) | 感情推定器生成方法、感情推定器生成装置、感情推定方法、感情推定装置及びプログラム | |
Mertens | Polytonia: a system for the automatic transcription of tonal aspects in speech corpora | |
JP5105943B2 (ja) | 発話評価装置及び発話評価プログラム | |
JP2019179064A (ja) | 音声合成装置、音声モデル学習装置およびそれらのプログラム | |
JP6806619B2 (ja) | 音声合成システム、音声合成方法、及び音声合成プログラム | |
JP4532862B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP3846300B2 (ja) | 録音原稿作成装置および方法 | |
Gibbon et al. | Duration and speed of speech events: A selection of methods | |
JP2017198790A (ja) | 音声評定装置、音声評定方法、教師変化情報の生産方法、およびプログラム | |
JP6436806B2 (ja) | 音声合成用データ作成方法、及び音声合成用データ作成装置 | |
JP2000075894A (ja) | 音声認識方法及び装置、音声対話システム、記録媒体 | |
JP2006330060A (ja) | 音声合成装置、音声処理装置、およびプログラム | |
JP5098932B2 (ja) | 歌詞データ表示装置、歌詞データ表示方法、歌詞データ表示プログラム | |
JP4621936B2 (ja) | 音声合成装置、学習データ生成装置、ポーズ予測装置およびプログラム | |
Meijs | Generating natural narrative speech for the Virtual Storyteller | |
Mixdorff et al. | Duration modeling in a vietnamese text-to-speech system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080318 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080411 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110425 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4114888 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110425 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120425 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130425 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130425 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140425 Year of fee payment: 6 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |