JP2020056996A - 音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体 - Google Patents
音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP2020056996A JP2020056996A JP2019149038A JP2019149038A JP2020056996A JP 2020056996 A JP2020056996 A JP 2020056996A JP 2019149038 A JP2019149038 A JP 2019149038A JP 2019149038 A JP2019149038 A JP 2019149038A JP 2020056996 A JP2020056996 A JP 2020056996A
- Authority
- JP
- Japan
- Prior art keywords
- voice signal
- synthesized
- real
- synthesized voice
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 96
- 238000006243 chemical reaction Methods 0.000 claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 19
- 230000008859 change Effects 0.000 claims description 29
- 210000003625 skull Anatomy 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 claims description 10
- 230000033001 locomotion Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 230000001815 facial effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000008921 facial expression Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 241000699666 Mus <mouse, genus> Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- APTZNLHMIGJTEW-UHFFFAOYSA-N pyraflufen-ethyl Chemical compound C1=C(Cl)C(OCC(=O)OCC)=CC(C=2C(=C(OC(F)F)N(C)N=2)Cl)=C1F APTZNLHMIGJTEW-UHFFFAOYSA-N 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/451—Execution arrangements for user interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/06—Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
- G10L21/10—Transforming into visible information
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
- Processing Or Creating Images (AREA)
Abstract
Description
110 音声入力装置
120 ディスプレイ
130 スピーカー
140 操作入力装置
150 記憶装置
151 ボイスデータ
1511 本物のボイス信号
1512 合成ボイス信号
153 本物の声の文字シナリオ
155 文章データベース
157 映像データ
1571 本物の顔映像
1572 合成顔映像
170 処理装置
190 機械的頭蓋骨
S210〜S295、S310〜S350、S510〜S530 ステップ
Claims (15)
- 音声を再生するスピーカーと、
文章データベースを記録する記憶装置と、
前記スピーカーおよび前記記憶装置に接続され、少なくとも1つの本物のボイス信号を取得して、前記文章データベース内の文章をテキスト読み上げ技術で最初の合成ボイス信号に変換し、前記最初の合成ボイス信号を音色変換モデルにして、合成ボイス信号に変換する処理装置と、
を含み、前記音色変換モデルが、前記少なくとも1つの本物のボイス信号を使用し、訓練した後に得られ、前記処理装置が、前記スピーカーで前記合成ボイス信号を再生するボイス再生システム。 - 前記処理装置が、前記少なくとも1つの本物のボイス信号から少なくとも1つの第1音響学(acoustic)特徴を取得し、前記少なくとも1つの本物のボイス信号に対応する文字シナリオに基づいて、前記テキスト読み上げ技術で合成ボイス信号を生成し、前記合成ボイス信号から少なくとも1つの第2音響学特徴を取得し、前記少なくとも1つの第1音響学特徴および前記少なくとも1つの第2音響学特徴を使用して前記音色変換のモデルを訓練する請求項1に記載のボイス再生システム。
- 前記処理装置が、ユーザーインターフェースを提供して、前記少なくとも1つの本物のボイス信号および前記文章データベースに記録された複数の前記文章を表示し、前記ユーザーインターフェース上の前記少なくとも1つの本物のボイス信号の中の1つおよび前記文章データベースの中の1つの前記文章に対する選択操作を受信し、前記選択操作に反応して、前記処理装置が、選択した文章内の字句を前記合成ボイス信号に変換する請求項1に記載のボイス再生システム。
- 前記記憶装置が、さらに、複数の人物が複数の録音時間における前記少なくとも1つの本物のボイス信号を記録し、前記処理装置が、ユーザーインターフェースを提供して、前記人物および対応する録音時間を表示し、前記ユーザーインターフェース上の前記人物および対応する前記録音時間に対する選択操作を受信し、前記選択操作に反応して、前記処理装置が、選択した本物のボイス信号に対応する音色変換モデルを取得する請求項1に記載のボイス再生システム。
- 前記文章データベース内の文章内容が、郵便、メッセージ、書籍、広告、および新聞のうちの少なくとも1つに関連する請求項1に記載のボイス再生システム。
- 前記処理装置に接続されたディスプレイをさらに含み、
前記処理装置が、少なくとも1つの本物の顔映像を収集し、前記合成ボイス信号に基づいて、口唇形状変化データを生成し、前記少なくとも1つの本物の顔映像のうちの1つを前記口唇形状変化データに基づいて、合成顔映像に合成するとともに、それぞれ前記ディスプレイおよび前記スピーカーで前記合成顔映像および前記合成ボイス信号を同時に再生する請求項1に記載のボイス再生システム。 - 前記処理装置に接続された機械的頭蓋骨をさらに含み、
前記処理装置が、前記合成ボイス信号に基づいて、口唇形状変化データを生成するとともに、前記口唇形状変化データに基づいて、前記機械的頭蓋骨の口唇部動作を制御し、同時に前記スピーカーで前記合成ボイス信号を再生する請求項1に記載のボイス再生システム。 - 少なくとも1つの本物のボイス信号を収集するステップと、
文章をテキスト読み上げ技術で最初の合成ボイス信号に変換するステップと、
前記最初の合成ボイス信号を音色変換モデルにして、合成ボイス信号に変換し、前記音色変換モデルが、前記少なくとも1つの本物のボイス信号を使用し、訓練した後に得られるステップと、
変換された前記合成ボイス信号を再生するステップと、
を含むボイス再生方法。 - 前記最初に合成されたボイス信号を前記音色変換モデルにして、前記合成ボイス信号に変換するステップの前に、さらに、
前記少なくとも1つの本物のボイス信号から少なくとも1つの第1音響学(acoustic)特徴を取得するステップと、
前記少なくとも1つの本物のボイス信号に対応する文字シナリオに基づいて、前記テキスト読み上げ技術で合成ボイス信号を生成するステップと、
前記合成ボイス信号から少なくとも1つの本物の第2音響学特徴を取得するステップと、
前記少なくとも1つの第1音響学特徴と前記少なくとも1つの第2音響学特徴を使用して、前記音色変換モデルを訓練するステップと、
を含む請求項8に記載のボイス再生方法。 - 前記最初の合成ボイス信号を前記音色変換モデルにして前記合成ボイス信号に変換するステップの前に、さらに、
ユーザーインターフェースを提供して、収集した前記少なくとも1つの本物のボイス信号および文章データベースに記録された複数の前記文章を表示するステップと、
前記ユーザーインターフェース上の前記本物のボイス信号および前記文章データベースの中の1つの前記文章に対する選択操作を受信するステップと、
前記選択操作に反応して、選択した文章内の字句を前記合成ボイス信号に変換するステップと、
を含む請求項8に記載のボイス再生方法。 - 前記本物のボイス信号を取得するステップが、
複数の人物が複数の録音時間における本物のボイス信号を記録するステップと、
ユーザーインターフェースを提供して、前記人物および対応する録音時間を表示するステップと、
前記ユーザーインターフェース上の前記人物および対応する前記録音時間に対する選択操作を受信するステップと、
前記選択操作に反応して、選択した本物のボイス信号に対応する音色変換モデルを取得するステップと、
を含む請求項8に記載のボイス再生方法。 - 前記文章内容が、郵便、メッセージ、書籍、広告、および新聞のうちの少なくとも1つに関連する請求項8に記載のボイス再生方法。
- 前記合成ボイス信号に変換するステップの後に、さらに、
本物の顔映像を取得するステップと、
前記合成ボイス信号に基づいて、口唇形状変化データを生成するステップと、
前記本物の顔映像を前記口唇形状変化データに基づいて、合成顔映像に合成するステップと、
前記合成顔映像および前記合成ボイス信号を同時に再生するステップと、
を含む請求項8に記載のボイス再生方法。 - 前記合成ボイス信号に変換するステップの後に、さらに、
前記合成ボイス信号に基づいて、口唇形状変化データを生成するステップと、
前記口唇形状変化データに基づいて、機械的頭蓋骨の口唇部動作を制御し、同時に前記合成ボイス信号を再生するステップと、
を含む請求項8に記載のボイス再生方法。 - コードを記録して、装置のプロセッサにロードし、
少なくとも1つの本物のボイス信号を収集するステップと、
文章をテキスト読み上げ技術で最初の合成ボイス信号に変換するステップと、
前記最初の合成ボイス信号を音色変換モデルにして、合成ボイス信号に変換し、前記音色変換モデルが、前記少なくとも1つの本物のボイス信号を使用し、訓練した後に得られるステップと、
変換された前記合成ボイス信号を再生するステップと、
を実行する非一時的コンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW107128649A TW202009924A (zh) | 2018-08-16 | 2018-08-16 | 音色可選之人聲播放系統、其播放方法及電腦可讀取記錄媒體 |
TW107128649 | 2018-08-16 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020056996A true JP2020056996A (ja) | 2020-04-09 |
Family
ID=69523305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019149038A Pending JP2020056996A (ja) | 2018-08-16 | 2019-08-15 | 音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20200058288A1 (ja) |
JP (1) | JP2020056996A (ja) |
CN (1) | CN110867177A (ja) |
TW (1) | TW202009924A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022003447A (ja) * | 2020-06-23 | 2022-01-11 | クリスタルメソッド株式会社 | 学習方法、コンテンツ再生装置、及びコンテンツ再生システム |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105845125B (zh) * | 2016-05-18 | 2019-05-03 | 百度在线网络技术(北京)有限公司 | 语音合成方法和语音合成装置 |
US11195507B2 (en) * | 2018-10-04 | 2021-12-07 | Rovi Guides, Inc. | Translating between spoken languages with emotion in audio and video media streams |
CN113449068A (zh) * | 2020-03-27 | 2021-09-28 | 华为技术有限公司 | 一种语音交互方法及电子设备 |
CN111667812B (zh) * | 2020-05-29 | 2023-07-18 | 北京声智科技有限公司 | 一种语音合成方法、装置、设备及存储介质 |
CN112151008B (zh) * | 2020-09-22 | 2022-07-15 | 中用科技有限公司 | 一种语音合成方法、系统及计算机设备 |
CN112992116A (zh) * | 2021-02-24 | 2021-06-18 | 北京中科深智科技有限公司 | 一种视频内容自动生成方法和系统 |
CN113223555A (zh) * | 2021-04-30 | 2021-08-06 | 北京有竹居网络技术有限公司 | 视频生成方法、装置、存储介质及电子设备 |
EP4322162A1 (en) * | 2021-07-16 | 2024-02-14 | Samsung Electronics Co., Ltd. | Electronic device for generating mouth shape, and operating method therefor |
CN114822496B (zh) * | 2021-08-20 | 2024-09-20 | 美的集团(上海)有限公司 | 一种音色切换方法、装置、设备及介质 |
CN118541751A (zh) * | 2021-11-09 | 2024-08-23 | Lg电子株式会社 | 提供语音合成服务的方法及其系统 |
CN114242093A (zh) * | 2021-12-16 | 2022-03-25 | 游密科技(深圳)有限公司 | 语音音色转换方法、装置、计算机设备和存储介质 |
CN114842827A (zh) * | 2022-04-28 | 2022-08-02 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频合成方法、电子设备及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005266349A (ja) * | 2004-03-18 | 2005-09-29 | Nec Corp | 声質変換装置および声質変換方法ならびに声質変換プログラム |
WO2007063827A1 (ja) * | 2005-12-02 | 2007-06-07 | Asahi Kasei Kabushiki Kaisha | 声質変換システム |
JP2008058379A (ja) * | 2006-08-29 | 2008-03-13 | Seiko Epson Corp | 音声合成システム及びフィルタ装置 |
JP2009265279A (ja) * | 2008-04-23 | 2009-11-12 | Sony Ericsson Mobilecommunications Japan Inc | 音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム |
JP2014035541A (ja) * | 2012-08-10 | 2014-02-24 | Casio Comput Co Ltd | コンテンツ再生制御装置、コンテンツ再生制御方法及びプログラム |
JP2017087344A (ja) * | 2015-11-10 | 2017-05-25 | 株式会社国際電気通信基礎技術研究所 | アンドロイドロボットの制御システム、装置、プログラムおよび方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5657426A (en) * | 1994-06-10 | 1997-08-12 | Digital Equipment Corporation | Method and apparatus for producing audio-visual synthetic speech |
CN1914666B (zh) * | 2004-01-27 | 2012-04-04 | 松下电器产业株式会社 | 声音合成装置 |
CN101930747A (zh) * | 2010-07-30 | 2010-12-29 | 四川微迪数字技术有限公司 | 一种将语音转换成口型图像的方法和装置 |
CN102609969B (zh) * | 2012-02-17 | 2013-08-07 | 上海交通大学 | 基于汉语文本驱动的人脸语音同步动画的处理方法 |
CN104464716B (zh) * | 2014-11-20 | 2018-01-12 | 北京云知声信息技术有限公司 | 一种语音播报系统和方法 |
CN104361620B (zh) * | 2014-11-27 | 2017-07-28 | 韩慧健 | 一种基于综合加权算法的口型动画合成方法 |
CN105280179A (zh) * | 2015-11-02 | 2016-01-27 | 小天才科技有限公司 | 一种文字转语音的处理方法及系统 |
CN105719518A (zh) * | 2016-04-26 | 2016-06-29 | 迟同斌 | 智能儿童早教机 |
CN106205623B (zh) * | 2016-06-17 | 2019-05-21 | 福建星网视易信息系统有限公司 | 一种声音转换方法及装置 |
US20180330713A1 (en) * | 2017-05-14 | 2018-11-15 | International Business Machines Corporation | Text-to-Speech Synthesis with Dynamically-Created Virtual Voices |
CN108206887A (zh) * | 2017-09-21 | 2018-06-26 | 中兴通讯股份有限公司 | 一种短信播放方法、终端和计算机可读存储介质 |
CN107770380B (zh) * | 2017-10-25 | 2020-12-08 | 百度在线网络技术(北京)有限公司 | 信息处理方法和装置 |
CN108230438B (zh) * | 2017-12-28 | 2020-06-19 | 清华大学 | 声音驱动辅助侧脸图像的人脸重建方法及装置 |
CN109036374B (zh) * | 2018-07-03 | 2019-12-03 | 百度在线网络技术(北京)有限公司 | 数据处理方法和装置 |
CN108847215B (zh) * | 2018-08-29 | 2020-07-17 | 北京云知声信息技术有限公司 | 基于用户音色进行语音合成的方法及装置 |
-
2018
- 2018-08-16 TW TW107128649A patent/TW202009924A/zh unknown
- 2018-12-21 CN CN201811570934.3A patent/CN110867177A/zh active Pending
-
2019
- 2019-04-08 US US16/377,258 patent/US20200058288A1/en not_active Abandoned
- 2019-08-15 JP JP2019149038A patent/JP2020056996A/ja active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005266349A (ja) * | 2004-03-18 | 2005-09-29 | Nec Corp | 声質変換装置および声質変換方法ならびに声質変換プログラム |
WO2007063827A1 (ja) * | 2005-12-02 | 2007-06-07 | Asahi Kasei Kabushiki Kaisha | 声質変換システム |
JP2008058379A (ja) * | 2006-08-29 | 2008-03-13 | Seiko Epson Corp | 音声合成システム及びフィルタ装置 |
JP2009265279A (ja) * | 2008-04-23 | 2009-11-12 | Sony Ericsson Mobilecommunications Japan Inc | 音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム |
JP2014035541A (ja) * | 2012-08-10 | 2014-02-24 | Casio Comput Co Ltd | コンテンツ再生制御装置、コンテンツ再生制御方法及びプログラム |
JP2017087344A (ja) * | 2015-11-10 | 2017-05-25 | 株式会社国際電気通信基礎技術研究所 | アンドロイドロボットの制御システム、装置、プログラムおよび方法 |
Non-Patent Citations (1)
Title |
---|
WU, CHUNG-HSIEN, ET AL.: "Voice Conversion Using Duration-Embedded Bi-HMMs for Expressive Speech Synthesis", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 14, no. 4, JPN6020044480, July 2006 (2006-07-01), pages 1109 - 1116, ISSN: 0004390223 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022003447A (ja) * | 2020-06-23 | 2022-01-11 | クリスタルメソッド株式会社 | 学習方法、コンテンツ再生装置、及びコンテンツ再生システム |
Also Published As
Publication number | Publication date |
---|---|
CN110867177A (zh) | 2020-03-06 |
US20200058288A1 (en) | 2020-02-20 |
TW202009924A (zh) | 2020-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2020056996A (ja) | 音色選択可能なボイス再生システム、その再生方法、およびコンピュータ読み取り可能な記録媒体 | |
US12069345B2 (en) | Characterizing content for audio-video dubbing and other transformations | |
McKeown et al. | The semaine database: Annotated multimodal records of emotionally colored conversations between a person and a limited agent | |
WO2022184055A1 (zh) | 文章的语音播放方法、装置、设备、存储介质及程序产品 | |
JP2015517684A (ja) | コンテンツのカスタマイズ | |
WO2007043679A1 (ja) | 情報処理装置およびプログラム | |
CN101042716A (zh) | 一种电子宠物娱乐学习系统及方法 | |
KR101164379B1 (ko) | 사용자 맞춤형 컨텐츠 제작이 가능한 학습 장치 및 이를 이용한 학습 방법 | |
Goodman et al. | Toward user-driven sound recognizer personalization with people who are d/deaf or hard of hearing | |
KR20200045852A (ko) | 음성 합성 또는 영상 편집을 통한 멀티미디어 컨텐츠 내 광고 서비스 플랫폼 및 음성 합성 서비스와 영상 편집 서비스를 제공하는 방법 | |
WO2018043112A1 (ja) | 情報提示装置、および情報提示方法 | |
CN114464180A (zh) | 一种智能设备及智能语音交互方法 | |
KR101790709B1 (ko) | 구연동화 서비스 제공 시스템, 장치 및 구연동화 서비스 제공 방법 | |
KR20180042116A (ko) | 구연동화 서비스 제공 시스템, 장치 및 구연동화 서비스 제공 방법 | |
CN111726696B (zh) | 声音弹幕的应用方法、装置、设备及可读存储介质 | |
WO2023276539A1 (ja) | 音声変換装置、音声変換方法、プログラム、および記録媒体 | |
JP2024533345A (ja) | バーチャルコンサートの処理方法、処理装置、電子機器およびコンピュータプログラム | |
JP2016201678A (ja) | 認識装置、映像コンテンツ提示システム | |
Abdo et al. | Building Audio-Visual Phonetically Annotated Arabic Corpus for Expressive Text to Speech. | |
JP6619072B2 (ja) | 音合成装置、音合成方法、及びそのプログラム | |
JP2008032788A (ja) | 語学教材データ作成用プログラム | |
JP2020204683A (ja) | 電子出版物視聴覚システム、視聴覚用電子出版物作成プログラム、及び利用者端末用プログラム | |
Kerry | ‘The Birth of the Virtual Choir’: Exploring the multimodal realisation of the Covid-19 liminal space in a YouTube virtual choir performance | |
Gilmartin | Composition and Dynamics of Multiparty Casual Conversation: A Corpus-based Analysis | |
Tong | Speech to text with emoji |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200210 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201106 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201124 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20210629 |