CN106710585A - 语音交互过程中的多音字播报方法及系统 - Google Patents

语音交互过程中的多音字播报方法及系统 Download PDF

Info

Publication number
CN106710585A
CN106710585A CN201611199610.4A CN201611199610A CN106710585A CN 106710585 A CN106710585 A CN 106710585A CN 201611199610 A CN201611199610 A CN 201611199610A CN 106710585 A CN106710585 A CN 106710585A
Authority
CN
China
Prior art keywords
information
polyphone
module
voice
feedback information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611199610.4A
Other languages
English (en)
Other versions
CN106710585B (zh
Inventor
王鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Shanghai Intelligent Technology Co Ltd
Original Assignee
SHANGHAI YUZHIYI INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI YUZHIYI INFORMATION TECHNOLOGY Co Ltd filed Critical SHANGHAI YUZHIYI INFORMATION TECHNOLOGY Co Ltd
Priority to CN201611199610.4A priority Critical patent/CN106710585B/zh
Publication of CN106710585A publication Critical patent/CN106710585A/zh
Application granted granted Critical
Publication of CN106710585B publication Critical patent/CN106710585B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供了一种语音交互过程中的多音字播报方法及系统,所述播报方法包括:获取语音信息,识别所述语音信息;形成反馈信息;对所述反馈信息进行注音;播报所述反馈信息;释放先验信息。本发明通过将获取的语音信息通过识别存储为文本信息和音素信息,利用所述音素信息对反馈信息进行注音再进行播报,能有效提高专有名词中的多音字播报准确率,改善多音字播报效果。

Description

语音交互过程中的多音字播报方法及系统
技术领域
本发明涉及语音交互技术领域,具体来说涉及语音交互过程中的多音字播报方法及系统。
背景技术
语音合成,又称文语转换(Text To Speech)技术,是一种能够将文字信息转化为语音并进行朗读的技术,其涉及声学、语言学、数字信号处理、计算机科学等多个学科基础,是中文信息处理领域的一项前沿技术,解决的主要问题是如何将文字信息转化为可听的声音信息。
在语音合成系统中,将文本信息转换为声音信息的过程为:首先需要对输入的文本进行处理,包括预处理、分词、词性标注、多音字预测、韵律层级预测等,然后再通过声学模型,预测各个单元对应的声学特征,最后利用声学参数直接通过声码器合成声音,或者从录音词库中挑选单元进行拼接,以生成与文本对应的声音信息。
其中多音字预测是整个语音合成系统的基础之一,多音字朗读的正确与否,极大地影响了听者对合成声音语义的理解情况,如果多音字预测准确率高,可以大大改善用户体验,使合成出来的语音易于理解,听起来也更佳自然流畅。
现有的多音字发音策略多采用如下方法:
若多音字可以和上下文组成词语,则按照固定搭配中的多音字来进行播报,例如重点、重新;若多音字以单字形式出现,则基于大量数据训练模型的方法来决定发音,例如为人民服务、结果为零。在语音合成技术中,常用的大量训练数据模型的方法包括但不限于:CRF(条件随机场)方法,HMM(隐马尔科夫模型)方法,决策树方法等等。这些方法的特点是需要大量多音字的标注信息来进行训练。优点是可以仅凭文本信息来预测多音字的发音,且对于出现在常见上下文语境中的多音字预测准确率较高;缺点是对于训练数据中不包含的多音字或者是上下文语境中没有包含过的多音字的处理能力很差。
但上述方法对于专有名词比如人名、地名、公司名称中的多音字播报效果较差。这是由于在语音交互过程中,用户的提问或指令信息中通常包含有多音字的发音,特别是对于人名、地名和公司名称的发音,但是在语音交互系统中,却将语音识别和语音合成分离开来,即语音识别中获得的对应文本信息的音素信息未被语音合成模块利用,而语音合成信息在播报该专有名词中的多音字时,根据自身事先设定的策略进行发音的选择。
发明内容
鉴于上述情况,本发明提供一种语音交互过程中的多音字播报方法及系统,解决了现有的多音字发音策略对专有名词(人名、地名、公司名称)中的多音字播报效果较差的技术问题,提高了专有名词中的多音字播报准确率。
为实现上述目的,本发明采取的技术方案是:
一种语音交互过程中的多音字播报方法,包括如下步骤:
a.获取语音信息;
b.识别所述语音信息,通过语音识别得出所述语音信息对应的文本信息和音素信息;
c.执行所述文本信息的指令并形成相应的反馈信息;
d.对反馈信息进行注音:首先查找所述反馈信息中是否包括多音字,若查找到多音字,首先将反馈信息与所述文本信息进行比对,若比对成功,从所述音素信息中获取发音并对反馈信息中的多音字进行注音;若比对不成功,则依据大量数据训练模型的方法来对反馈信息中的多音字进行注音;
e.对所述反馈信息进行播报。
本发明的进一步改进在于,在所述步骤b中,还包括将所述文本信息和音素信息作为先验信息进行存储。
本发明的进一步改进在于,所述反馈信息播报结束后,释放预先存储的先验信息。
本发明的进一步改进在于,在所述步骤c中,所述反馈信息为文本形式的信息。
本发明的进一步改进在于,在所述步骤d中,还包括对所述反馈信息中的单音字进行注音。
本发明的更进一步改进在于,在所述步骤d中,若在所述反馈信息中未查找到多音字,则直接对反馈信息进行注音。
此外,本发明还提供一种用于实施以上所述多音字播报方法的播报系统,所述系统包括录音模块、语音识别模块、处理及控制模块、语音合成模块以及语音播报模块:
所述录音模块,与所述语音识别模块以及所述处理及控制模块连接,用于获取语音信息并将所述语音信息传送给所述语音识别模块;
语音识别模块,与所述处理及控制模块连接,用于识别所述语音信息并得出与所述语音信息对应的文本信息和音素信息,将所述文本信息和音素信息传送给所述处理及控制模块;
所述处理及控制模块,与所述语音合成模块及语音播报模块连接,用于执行所述文本信息的指令并形成相应的反馈信息,将所述反馈信息传送给所述语音合成模块;
所述语音合成模块,与所述语音播报模块连接,用于查找所述反馈信息中是否包含多音字并对所述反馈信息进行注音,并将已注音的反馈信息传送给所述语音播报模块;
所述语音播报模块,用于播报所述已注音的反馈信息。
所述系统的更进一步改进在于,所述反馈信息是文本形式的信息;所述系统还包括临时存储模块,所述临时存储模块与所述处理及控制模块连接,所述语音识别模块通过所述处理及控制模块将所述文本信息和音素信息作为先验信息存储到所述临时存储模块中;所述处理及控制模块将所述先验信息从所述临时存储模块中释放。
本发明的有益效果在于,本发明通过将获取的语音信息通过识别存储为文本信息和音素信息,利用所述音素信息对反馈信息进行注音再进行播报,能有效提高专有名词中的多音字播报准确率,改善多音字播报效果。
附图说明
图1是本发明语音交互过程中的多音字播报方法的示意性流程图。
图2是本发明语音交互过程中的多音字播报系统的结构示意图。
附图标记与部件的对应关系如下:
S1-语音信息,S2-先验信息,S21-文本信息,S22-音素信息,S3-反馈信息,S4-已注音的反馈信息。
具体实施方式
为利于对本发明的了解,以下结合附图及实施例进行说明。
请参阅图1,本发明提供一种语音交互过程中的多音字播报方法,以提高专有名词中的多音字播报准确率,可广泛适用于车载、导航、电话、短信等场景,还可以适用于智能设备中的语音助手、智能机器人等任何语音交互的场景。所述多音字播报方法包括如下步骤:
a.获取语音信息;
b.识别所述语音信息,通过识别得出所述语音信息对应的文本信息和音素信息,并将所述文本信息和音素信息作为先验信息予以存储;
c.执行所述文本信息的指令并形成相应的反馈信息;
d.对反馈信息进行注音:首先查找所述反馈信息中是否包括多音字,若查找到多音字,首先将反馈信息与所述先验信息进行比对,若比对成功,从所述音素信息中获取发音并对反馈信息中的多音字进行注音;若比对不成功,则依据大量数据训练模型的方法来对反馈信息中的多音字进行注音;
e.对所述反馈信息进行播报;
在上述步骤中,所述反馈信息为文本形式的信息,即TTS文本;在步骤d中,若未查找到多音字,则直接对反馈信息进行注音;步骤d中在所述反馈信息中的多音字进行注音的同时还包括对单音字的注音。反馈信息的播报结束后,则释放预先存储的先验信息。
此外,请参阅图2,本发明还提供一种用于实施上述多音字播报方法的系统,所述系统包括录音模块、语音识别模块、处理及控制模块、语音合成模块以及语音播报模块:
所述录音模块,与所述语音识别模块以及所述处理及控制模块连接,用于获取语音信息S1并将所述语音信息S1传送给所述语音识别模块;
语音识别模块,与所述处理及控制模块连接,用于识别所述语音信息S1并得出与所述语音信息对应的文本信息S21和音素信息S22,将所述文本信息S21和音素信息S22传送给所述处理及控制模块;
所述处理及控制模块,与所述语音合成模块及语音播报模块连接,用于执行所述文本信息S21的指令并形成相应的反馈信息S3,将所述反馈信息S3传送给所述语音合成模块;
所述语音合成模块,与所述语音播报模块连接,用于查找所述反馈信息S3中是否包含多音字并对所述反馈信息S3进行注音,并将已注音的反馈信息S4传送给所述语音播报模块;
所述语音播报模块,用于播报所述已注音的反馈信息S4。
所述系统还包括临时存储模块,所述临时存储模块与所述处理及控制模块连接,所述语音识别模块还用于在识别所述语音信息时,通过所述处理及控制模块将所述文本信息S21和音素信息S22作为先验信息S2存储到所述临时存储模块中;在播报结束后,所述处理及控制模块将所述先验信息S2从所述临时存储模块中释放。
以下实施例选取本发明在导航交互场景中的应用来详细说明:
开启导航后,用户说“导航到莘松新村”,录音模块将该信息获取为语音信息S1;
语音识别模块将录音模块获取的语音信息S1进行识别得出对应的文本信息S21和音素信息S22,并将所述文本信息S21和音素信息S22存储为先验信息S2;
处理及控制模块执行所述文本信息S21的指令并形成反馈信息S3“好的,为您导航到莘松新村”,即执行导航的动作;
语音合成模块将该反馈信息S3作为TTS文本并进行注音:首先查找反馈信息S3“好的,为您导航到莘松新村”中是否包含多音字,查找到包含两个多音字“为”和“莘”,然后语音合成模块读取预先存储的先验信息S2中的文本信息S21与该文本形式的反馈信息S3进行比对,语音合成模块读取到反馈信息S3中的“莘”与先验信息S2“导航到莘松新村”中的“莘”相匹配,则从先验信息S2的音素信息S22中获取“XIN(一声)”对“莘”进行注音;语音合成模块没有读取到先验信息S2中与“为”匹配的读音,则依据大量训练模型的方法对“为”注音成“WEI(四声)”;同时语音合成模块对该反馈信息S3中的单音字进行注音。
语音播报模块对上述已注音的反馈信息S4进行播报;
处理及控制模块释放预先存储的先验信息S2。
于本实施例中,“莘”是一个多音字,由于是专有名词,无法使用现有的方法做很好的消歧处理,用户在发出指令的时候包含该专有名词的词组,因此在该场景下多音字“莘”的发音是可以确定的。本发明通过语音识别模块获取的音素信息来辅助判断反馈信息中多音字的发音,提高了多音字播报的准确率,改善了多音字播报效果。
以上结合附图及实施例对本发明进行了详细说明,本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而,实施例中的某些细节不应构成对本发明的限定,本发明将以所附权利要求书界定的范围作为本发明的保护范围。

Claims (10)

1.一种语音交互过程中的多音字播报方法,其特征在于,包括如下步骤:
a.获取语音信息;
b.识别所述语音信息,通过识别得出所述语音信息对应的文本信息和音素信息;
c.执行所述文本信息的指令并形成相应的反馈信息;
d.对所述反馈信息进行注音:查找所述反馈信息中是否包括多音字,若查找到多音字,将反馈信息与所述文本信息进行比对,若比对成功,从所述音素信息中获取发音并对反馈信息中的多音字进行注音;若比对不成功,则依据大量数据训练模型的方法来对反馈信息中的多音字进行注音;
e.对所述反馈信息进行播报。
2.根据权利要求1所述的语音交互过程中的多音字播报方法,其特征在于:在所述步骤b中,还包括将所述文本信息和音素信息作为先验信息进行存储。
3.根据权利要求2所述的语音交互过程中的多音字播报方法,其特征在于:所述反馈信息播报结束后,释放预先存储的先验信息。
4.根据权利要求1所述的语音交互过程中的多音字播报方法,其特征在于:在所述步骤c中,所述反馈信息是文本形式的信息。
5.根据权利要求1所述的语音交互过程中的多音字播报方法,其特征在于:在所述步骤d中,还包括对所述反馈信息中的单音字进行注音。
6.根据权利要求1所述的语音交互过程中的多音字播报方法,其特征在于:在所述步骤d中,若在所述反馈信息中未查找到多音字,则直接对反馈信息进行注音。
7.一种实施如权利要求1至6中任一项所述的语音交互过程中的多音字播报方法的系统,其特征在于,所述系统包括录音模块、语音识别模块、处理及控制模块、语音合成模块以及语音播报模块:
所述录音模块,与所述语音识别模块以及所述处理及控制模块连接,用于获取语音信息并将所述语音信息传送给所述语音识别模块;
所述语音识别模块,与所述处理及控制模块连接,用于识别所述语音信息并得出与所述语音信息对应的文本信息和音素信息,将所述文本信息和音素信息传送给所述处理及控制模块;
所述处理及控制模块,与所述语音合成模块及语音播报模块连接,用于执行所述文本信息的指令并形成相应的反馈信息,将所述反馈信息传送给所述语音合成模块;
所述语音合成模块,与所述语音播报模块连接,用于查找所述反馈信息中是否包含多音字并对所述反馈信息进行注音,并将已注音的反馈信息传送给所述语音播报模块;
所述语音播报模块,用于播报所述已注音的反馈信息。
8.根据权利要求7所述的语音交互过程中的多音字播报系统,其特征在于,所述反馈信息是文本形式的信息。
9.根据权利要求7所述的语音交互过程中的多音字播报系统,其特征在于,所述系统还包括临时存储模块,所述临时存储模块与所述处理及控制模块连接,所述语音识别模块通过所述处理及控制模块将所述文本信息和音素信息作为先验信息存储到所述临时存储模块中。
10.根据权利要求9所述的语音交互过程中的多音字播报系统,其特征在于,所述处理及控制模块将所述先验信息从所述临时存储模块中释放。
CN201611199610.4A 2016-12-22 2016-12-22 语音交互过程中的多音字播报方法及系统 Active CN106710585B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611199610.4A CN106710585B (zh) 2016-12-22 2016-12-22 语音交互过程中的多音字播报方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611199610.4A CN106710585B (zh) 2016-12-22 2016-12-22 语音交互过程中的多音字播报方法及系统

Publications (2)

Publication Number Publication Date
CN106710585A true CN106710585A (zh) 2017-05-24
CN106710585B CN106710585B (zh) 2019-11-08

Family

ID=58902972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611199610.4A Active CN106710585B (zh) 2016-12-22 2016-12-22 语音交互过程中的多音字播报方法及系统

Country Status (1)

Country Link
CN (1) CN106710585B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108364652A (zh) * 2018-01-16 2018-08-03 成都易讯呼科技有限公司 一种用于人工智能电话的智能语音对答交互控制系统
CN109616111A (zh) * 2018-12-24 2019-04-12 北京恒泰实达科技股份有限公司 一种基于语音识别的场景交互控制方法
CN110032626A (zh) * 2019-04-19 2019-07-19 百度在线网络技术(北京)有限公司 语音播报方法和装置
CN110264994A (zh) * 2019-07-02 2019-09-20 珠海格力电器股份有限公司 一种语音合成方法、电子设备及智能家居系统
CN110277085A (zh) * 2019-06-25 2019-09-24 腾讯科技(深圳)有限公司 确定多音字发音的方法及装置
CN111128186A (zh) * 2019-12-30 2020-05-08 云知声智能科技股份有限公司 多音字标音方法及装置
CN112259092A (zh) * 2020-10-15 2021-01-22 深圳市同行者科技有限公司 一种语音播报方法、装置及语音交互设备
CN113658586A (zh) * 2021-08-13 2021-11-16 北京百度网讯科技有限公司 语音识别模型的训练方法、语音交互方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1612209A (zh) * 2003-10-29 2005-05-04 何佩娟 一种语音录入电话号码条目的方法及其装置
CN1697019A (zh) * 2004-05-13 2005-11-16 深圳市移动核软件有限公司 使汉字自动发音的方法及使手机朗读短消息的方法
CN101033977A (zh) * 2007-04-18 2007-09-12 江苏新科数字技术有限公司 导航仪的语音导航方法
CN101324884A (zh) * 2008-07-29 2008-12-17 无敌科技(西安)有限公司 一种多音字发音方法
CN103456297A (zh) * 2012-05-29 2013-12-18 中国移动通信集团公司 一种语音识别匹配的方法和设备
CN105336322A (zh) * 2015-09-30 2016-02-17 百度在线网络技术(北京)有限公司 多音字模型训练方法、语音合成方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1612209A (zh) * 2003-10-29 2005-05-04 何佩娟 一种语音录入电话号码条目的方法及其装置
CN1697019A (zh) * 2004-05-13 2005-11-16 深圳市移动核软件有限公司 使汉字自动发音的方法及使手机朗读短消息的方法
CN101033977A (zh) * 2007-04-18 2007-09-12 江苏新科数字技术有限公司 导航仪的语音导航方法
CN101324884A (zh) * 2008-07-29 2008-12-17 无敌科技(西安)有限公司 一种多音字发音方法
CN103456297A (zh) * 2012-05-29 2013-12-18 中国移动通信集团公司 一种语音识别匹配的方法和设备
CN105336322A (zh) * 2015-09-30 2016-02-17 百度在线网络技术(北京)有限公司 多音字模型训练方法、语音合成方法及装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108364652A (zh) * 2018-01-16 2018-08-03 成都易讯呼科技有限公司 一种用于人工智能电话的智能语音对答交互控制系统
CN109616111A (zh) * 2018-12-24 2019-04-12 北京恒泰实达科技股份有限公司 一种基于语音识别的场景交互控制方法
CN109616111B (zh) * 2018-12-24 2023-03-14 北京恒泰实达科技股份有限公司 一种基于语音识别的场景交互控制方法
CN110032626A (zh) * 2019-04-19 2019-07-19 百度在线网络技术(北京)有限公司 语音播报方法和装置
CN110032626B (zh) * 2019-04-19 2022-04-12 百度在线网络技术(北京)有限公司 语音播报方法和装置
CN110277085A (zh) * 2019-06-25 2019-09-24 腾讯科技(深圳)有限公司 确定多音字发音的方法及装置
CN110277085B (zh) * 2019-06-25 2021-08-24 腾讯科技(深圳)有限公司 确定多音字发音的方法及装置
CN110264994A (zh) * 2019-07-02 2019-09-20 珠海格力电器股份有限公司 一种语音合成方法、电子设备及智能家居系统
CN110264994B (zh) * 2019-07-02 2021-08-20 珠海格力电器股份有限公司 一种语音合成方法、电子设备及智能家居系统
CN111128186B (zh) * 2019-12-30 2022-06-17 云知声智能科技股份有限公司 多音字标音方法及装置
CN111128186A (zh) * 2019-12-30 2020-05-08 云知声智能科技股份有限公司 多音字标音方法及装置
CN112259092A (zh) * 2020-10-15 2021-01-22 深圳市同行者科技有限公司 一种语音播报方法、装置及语音交互设备
CN112259092B (zh) * 2020-10-15 2023-09-01 深圳市同行者科技有限公司 一种语音播报方法、装置及语音交互设备
CN113658586A (zh) * 2021-08-13 2021-11-16 北京百度网讯科技有限公司 语音识别模型的训练方法、语音交互方法及装置
CN113658586B (zh) * 2021-08-13 2024-04-09 北京百度网讯科技有限公司 语音识别模型的训练方法、语音交互方法及装置

Also Published As

Publication number Publication date
CN106710585B (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
US11496582B2 (en) Generation of automated message responses
US11264030B2 (en) Indicator for voice-based communications
CN106710585B (zh) 语音交互过程中的多音字播报方法及系统
US10140973B1 (en) Text-to-speech processing using previously speech processed data
US10074363B2 (en) Method and apparatus for keyword speech recognition
US10074369B2 (en) Voice-based communications
US10453449B2 (en) Indicator for voice-based communications
US10917758B1 (en) Voice-based messaging
Ramani et al. A common attribute based unified HTS framework for speech synthesis in Indian languages
US20080177543A1 (en) Stochastic Syllable Accent Recognition
Prahallad et al. Sub-phonetic modeling for capturing pronunciation variations for conversational speech synthesis
CN105654943A (zh) 一种语音唤醒方法、装置及系统
US11798559B2 (en) Voice-controlled communication requests and responses
JPH0922297A (ja) 音声‐テキスト変換のための方法および装置
CN108305611B (zh) 文本转语音的方法、装置、存储介质和计算机设备
WO2018045154A1 (en) Voice-based communications
US11176943B2 (en) Voice recognition device, voice recognition method, and computer program product
JP2000172294A (ja) 音声認識方法、その装置及びプログラム記録媒体
CN114822489A (zh) 文本转写方法和文本转写装置
KR100806287B1 (ko) 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템
CN110310620B (zh) 基于原生发音强化学习的语音融合方法
JPH10173769A (ja) 音声メッセージ検索装置
JP2004347732A (ja) 言語自動識別方法及び装置
JP3727436B2 (ja) 音声原稿最適照合装置および方法
Barnard et al. Phone recognition for spoken web search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20170929

Address after: 200233 Shanghai City, Xuhui District Guangxi 65 No. 1 Jinglu room 702 unit 03

Applicant after: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY CO.,LTD.

Address before: 200233 Shanghai, Qinzhou, North Road, No. 82, building 2, layer 1198,

Applicant before: SHANGHAI YUZHIYI INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and system of polyphone broadcasting in speech interaction

Effective date of registration: 20201201

Granted publication date: 20191108

Pledgee: Bank of Hangzhou Limited by Share Ltd. Shanghai branch

Pledgor: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY Co.,Ltd.

Registration number: Y2020310000047

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220307

Granted publication date: 20191108

Pledgee: Bank of Hangzhou Limited by Share Ltd. Shanghai branch

Pledgor: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY CO.,LTD.

Registration number: Y2020310000047

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: The method and system of polyphonic broadcasting in the process of voice interaction

Effective date of registration: 20230210

Granted publication date: 20191108

Pledgee: Bank of Hangzhou Limited by Share Ltd. Shanghai branch

Pledgor: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY CO.,LTD.

Registration number: Y2023310000028

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Granted publication date: 20191108

Pledgee: Bank of Hangzhou Limited by Share Ltd. Shanghai branch

Pledgor: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY CO.,LTD.

Registration number: Y2023310000028

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: The method and system for broadcasting polyphonic characters in the process of voice interaction

Granted publication date: 20191108

Pledgee: Bank of Hangzhou Limited by Share Ltd. Shanghai branch

Pledgor: YUNZHISHENG (SHANGHAI) INTELLIGENT TECHNOLOGY CO.,LTD.

Registration number: Y2024310000165

PE01 Entry into force of the registration of the contract for pledge of patent right