CN1953053A - 一种实现文语转换功能的方法 - Google Patents

一种实现文语转换功能的方法 Download PDF

Info

Publication number
CN1953053A
CN1953053A CNA2005101142778A CN200510114277A CN1953053A CN 1953053 A CN1953053 A CN 1953053A CN A2005101142778 A CNA2005101142778 A CN A2005101142778A CN 200510114277 A CN200510114277 A CN 200510114277A CN 1953053 A CN1953053 A CN 1953053A
Authority
CN
China
Prior art keywords
literary composition
media resource
composition language
text string
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005101142778A
Other languages
English (en)
Other versions
CN100487788C (zh
Inventor
陈诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yingweite Spe LLC
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CNB2005101142778A priority Critical patent/CN100487788C/zh
Priority to PCT/CN2006/002806 priority patent/WO2007045187A1/zh
Priority to DE602006014578T priority patent/DE602006014578D1/de
Priority to AT06805015T priority patent/ATE469415T1/de
Priority to EP06805015A priority patent/EP1950737B1/en
Publication of CN1953053A publication Critical patent/CN1953053A/zh
Priority to US12/106,693 priority patent/US20080205279A1/en
Application granted granted Critical
Publication of CN100487788C publication Critical patent/CN100487788C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1101Session protocols
    • H04L65/1106Call signalling protocols; H.323 and related
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/762Media network packet handling at the source 

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Communication Control (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种实现文语转换功能的方法,其中,媒体资源控制设备通过H.248协议,控制媒体资源处理设备实现文语转换。该方法包括以下步骤:媒体资源控制设备通过定义H.248协议扩展包,在H.248消息中携带扩展包参数,指示媒体资源处理设备执行与该参数相应的文语转换处理;以及,媒体资源处理设备根据上述消息中的参数调用文语转换器执行文语转换处理,并将文语转换结果反馈媒体资源控制设备。通过本发明提供的方法,可以在移动或者固网的媒体资源应用中给用户提供文语转换相关的业务应用,同时,在修改时只需修改文本,不需要重新录音,并且可以根据用户需求播放更个性化的提示音。

Description

一种实现文语转换功能的方法
技术领域
本发明涉及一种实现文语转换功能的方法,特别涉及一种采用H.248协议作为控制协议来实现文语转换功能的方法。
背景技术
文语转换技术是一项核心的语音技术。它将文本信息转换成机器合成的语音,提供方便的、友好的人机交互接口。简单的说就是把一个文本串转换成语音。如输入文本“你好”,通过文语转换功能处理后,输出“你好”这句话的语音。
现有网络系统中,应用服务器在向用户放音时,通常有两种方法:
第1种方法是直接播放一个录音。如当用户呼叫一个用户失败时,系统会向用户提示“你呼叫的用户不在服务区”,这段提示音是提前录制并存储在服务器设备上的。在H.248协议中已有完善的方法,如H.248.9协议。
第2种方法是用文语转换功能来实现。当用户呼叫失败时,系统把“你呼叫的用户不在服务区”这句文本转换成语音输出给用户。
使用文语转换的好处是:
(1)修改方便,在修改时只需修改文本,不需要重新录音;
(2)可以根据用户需求播放更个性化的提示音,如分别用男声、女声、中性声音播放。
上述的第2种方法在H.248协议中没有定义,而媒体资源应用环境需要使用文语转换功能,就此,本发明提出一种通过H.248协议实现文语转换功能的方法。
发明内容
本发明提供一种媒体资源控制设备通过H.248协议指示媒体资源处理设备实现文语转换功能的方法。
本发明的实现文语转换功能的方法,包括以下步骤:
步骤一,媒体资源控制设备通过定义H.248协议扩展包,在H.248消息中携带扩展包参数,指示媒体资源处理设备执行与该参数相应的文语转换处理;以及
步骤二,媒体资源处理设备根据上述消息中的参数调用文语转换器执行文语转换处理,并将文语转换结果反馈媒体资源控制设备。
其中,该扩展包参数中携带有文本串的相关信息,媒体资源处理设备根据该文本串的相关信息,调用文语转换器进行文语转换。
上述文本串的相关信息可以为该文本串本身,其作为能被正确发音的字符串嵌入在H.248消息中,媒体资源处理设备接收到该文本串后,直接提取该文本串调用文语转换器进行文语转换。
当文本串预先存储在媒体资源处理设备或者外部服务器上时,上述文本串的相关信息可以为包括该文本串的标识和存储位置信息的文本文件,媒体资源处理设备接收到上述文本文件后,根据其中的存储位置信息,从本地或者外部服务器读取文本串放入缓存,并调用文语转换器进行文语转换。
其中,上述文本串的相关信息可以包括文本串和另一文本串的文本文件,该文本文件包括该另一文本串的标识和存储位置信息,该文本文件的标识和文本串组合成连续文本串,并在文本文件标识前增加关键词标识该组合为一发音文本文件,媒体资源处理设备接收到该组合后,首先从本地或者外部服务器读取文本串,将其和H.248消息中携带的发音文本串进行串接后放入缓存,然后调用文语转换器进行文语转换。
其中,上述文本串的相关信息可以包括一文本串和一录音文件的组合,并在文本串前增加关键词标识该组合为一语音文件,媒体资源处理设备接收到该组合后,首先调用文语转换器对文本串进行文语转换,然后将文语转换后输出的语音与录音文件组合一语音片断。
其中,上述文本串的相关信息可以为包括一文本文件和一录音文件的组合,该文本文件包括该另一文本串的标识和存储位置信息,并在该标识前增加关键词标识该组合为一语音文件,媒体资源处理设备接收到该组合后,首先根据存储位置信息从本地或者外部服务器读取文本串放入缓存,然后调用文语转换器对读取的文本串进行文语转换,并将文语转换后输出的语音与录音文件组合一语音片断。
在上述方法中,该H.248消息中进一步携带有文语转换输出的语音属性的相关参数,该相关参数包括:发音语言种类、发音性别、发音年龄、发音速度、发音音量、发音音调、特殊文字的发音方式、停顿、重读、或者在用户输入时是否中止文语转换,媒体资源处理设备接收到该相关参数后调用文语转换器为输出的语音设置相应的属性。
在步骤二媒体资源处理设备调用文语转换器执行文语转换过程中,上述方法进一步包括:
步骤21,媒体资源控制设备指示媒体资源处理设备检测语音识别过程中发生的异常事件。
在检测到异常事件时,媒体资源处理设备将表示异常事件相应的错误码反馈给媒体资源控制设备。
进一步,在步骤二中媒体资源处理设备调用文语转换器执行文语转换过程中,上述方法还包括:
步骤22,媒体资源控制设备对文语转换过程进行控制。
在步骤22中,媒体资源控制设备对文语转换过程的控制可以包括暂时停止对用户播放文语转换后的语音,以及从上述暂停状态恢复到播放状态。
在步骤22中,媒体资源控制设备对文语转换过程的控制可以包括使播放快进或者快退,该快进包括快进若干字、句子或者段落,或者快进若干秒,该快退包括包括快退若干字、句子或者段落,或者快退若干秒。
在步骤22中,媒体资源控制设备对文语转换过程的控制可以包括重新开始文语转换。
在步骤22中,媒体资源控制设备对文语转换过程的控制包括用户中止文语转换。
在步骤22中,媒体资源控制设备对文语转换过程的控制包括重复播放当前句、段落或者全文,以及对文语转换过程的控制进一步包括取消对当前句、段落或者全文的重复播放。
通过本发明提供的方法,可以在移动或者固网的媒体资源应用中,给用户提供文语转换相关的业务应用,如把网页上的内容转成声音读给用户听。同时,在修改时只需修改文本,不需要重新录音,并且可以根据用户需求播放更个性化的提示音。
附图说明
图1为WCDMA IMS网络中,处理媒体资源业务的网络架构。
图2为在固定软交换网络中,处理媒体资源业务的网络架构。
图3为本发明实现文语转换功能的方法的流程图。
具体实施方式
图1为WCDMA IMS网络中,处理媒体资源业务的网络架构。其中,应用服务器1用于处理各种业务,例如对用户放音、收号、会议、录音等。业务呼叫会话控制设备2用于处理路由,将应用服务器发出的消息正确地转发给媒体资源控制设备3,或者将媒体资源控制设备3发出的消息正确地路由到应用服务器1。媒体资源控制设备3用于控制媒体资源,其根据应用服务器1的要求,选择相应的媒体资源处理设备4并控制媒体资源的处理。媒体资源处理设备4用于媒体资源的处理,在媒体资源控制设备3的控制下,完成应用服务器1下发的媒体资源操作处理。
其中,应用服务器1、业务呼叫会话控制设备2、以及媒体资源控制设备3之间采用的接口使用SIP协议和XML协议,或者是SIP协议和类似XML的协议(例如VXML)。媒体资源控制设备3和媒体资源处理设备4之间采用的接口为Mp接口,使用H.248协议。媒体资源处理设备4的对外接口为Mb接口,一般采用RTP协议承载用户媒体流。
图2为在固定软交换网络中,处理媒体资源业务的网络架构。其中,媒体资源服务器(Media Resource Server,MRS)相当于WCDMA IMS网络中的媒体资源控制设备3和媒体资源处理设备4的功能,应用服务器相当于WCDMA IMS网络中的应用服务器1和业务呼叫会话控制设备2的功能,以及软交换设备和应用服务器1功能大致相同。
本发明所提供通过H.248协议实现文语转换功能的方法可以应用于图1所示的WCDMA IMS网络、以及图2所示的固定软交换网络中的媒体资源处理。同样也可以应用于其它网络,如CDMA网络和固定IMS网络,其媒体资源应用场景的架构和业务流程和上述WCDMA IMS的基本相同,以及WCDMA、CDMA电路软交换网络,其媒体资源应用架构和业务流程和固定软交换网络基本相同。也就是,本发明可以应用于所有通过H.248协议控制媒体资源设备实现文语转换功能的情况。
以下将以应用于WCDMA IMS为例,同时参考附图说明本发明所提供的通过H.248协议实现文语转换功能的方法。
这里,由于本发明只涉及图1所示媒体资源控制设备3和媒体资源处理设备4之间的处理过程,而其他过程同现有WCDMA IMS网络中的处理过程相同,因此,为了简化而只对媒体资源控制设备3和媒体资源处理设备4之间的处理过程进行描述。
如图3所示,为媒体资源控制设备3和媒体资源处理设备4进行媒体资源的控制和处理的流程图。
步骤1,媒体资源控制设备3向媒体资源处理设备4发出进行文语转换的指示。
具体地,媒体资源控制设备3通过定义H.248协议扩展包,在H.248消息中携带扩展包参数,从而指示媒体资源处理设备4执行文语转换。H.248协议包定义如下:
包名称(Package Name): TTS包(TTS Package)
包标识(PackageID):    ttsp(0x??)
说明:                 略,参见后续方案的说明
版本(Version):        1
扩展(Extends):        无
1.特性(Properties):
2.事件(Events):
参照在后续“事件”部分中的定义。
3、信号(Signals)
参照后续在“信号”部分的定义。
4.统计信息(Statistics)
5.处理(Procedure)
对应后续将要描述的流程。
在步骤1中,可以采用多种方式在H.248消息的参数中携带文本串相关信息:
(1)在H.248消息的参数中携带文本串:
文本串是一个能被正确发音的字符串,如“You are welcome!”
该文本串的格式不被处理H.248协议的功能实体识别,只是作为一个串嵌入在H.248消息中。媒体资源处理设备4接收到此参数后,可以直接提取文本串交给文语转换器处理。
(2)在H.248消息参数中携带文本串文件标识和存储位置信息
文本串可以预先存储在媒体资源处理设备4或者外部服务器上,H.248消息中携带该文本串文件的标识和存储位置信息。
文本串文件的标识可以是符合文件命名规范的任意字符串。
文本串文件的存储位置信息有三种形式:
I.本地可直接存取的文件,如welcome.txt;
II.通过file://方式存取的文件,如file://huawei/welcome.txt;
III.通过http://方式存取的文件,如http://huawei/welcome.txt;
媒体资源处理设备接收到此参数后,根据文本串文件的存放位置,先从远端服务器或者本地存储中读取文本文件,放入缓存,再调用文语转换器处理。
(3)在H.248消息参数中同时携带文本串和文本文件,文本串和文件组合执行
把文本文件标识和文本串组合成一个连续文本串,在文本文件标识前面增加特殊的关键字,表示引入一个发音文本文件,而不是直接转换这个文件名,如:
<importtextfile http://huawei/welcome.txt>
Do you want to play a game?
媒体资源处理设备4接收到发音文本串和文本串文件的组合执行命令后,先进行预处理,从外部服务器或者在本地读取文本串文件,并将其和消息中携带的发音文本串连接成为一个串,放入缓存,再调用文语转换器处理。
(4)指示对一个文本串或者文本文件做文语转换处理后,再和录音片段组合成另一个语音段
在语音文件标识前面增加特殊的关键字,表示引入一个语音文件,而不是直接转换这个文件名,如:
<importaudiofile http://huawei/welcome.g711>
Do you want to play a game?
媒体资源处理设备4接收到文语转换语音和录音文件的组合执行命令后,先进行预处理,从远端服务器或者本地读取文件,放入缓存;再调用文语转换器处理文本串,并将文语转换的输出语音和语音文件组合成一个语音片段。
另外,在步骤1中,进一步在H.248消息中携带文语转换输出的语音属性参数。在指示媒体资源处理设备执行文语转换时,可携带的与发音有关的参数有:
(1)发音语言种类
可以使用不同的语言种类,遵从RFC3066的定义。
(2)发音性别
可以是男声、女声或者中性声音;
(3)发音年龄
可以是孩童声音、成年人声音、或者老年声音;
(4)发音速度
发音速度可以比正常语速更快或者更慢,用百分比表示,-20%表示比正常速度慢20%。
(5)发音音量
发音音量可以比正常音调更高或者更低,用百分比表示,-20%表示比正常音调低20%。
(6)发音音调
发音音调可以比正常音调更高或者更低,用百分比表示,-20%表示比正常音调低20%。
(7)特殊文字的发音方式
对文本串中的特殊字规定发音方式。如“2005/10/01”的发音为“2005年10月1日”。
(8)是否停顿和停顿时长、停顿位置
停顿的目的是为了符合发音习惯,停顿时长是大于0的一个时间值,停顿位置可以有几种取值:在每读完一句话后停顿,或者在每读完一段话后停顿。
(9)是否重读和重读级别、重读的位置
重读级别可以是高、中、低三个级别;重读的位置可以有几种取值:只在全文开始时重读,每句话的开始都重读,每段话的开始都重读等。
(10)是否预读取文本文件
若指示预读取文件,则在接收到命令后,就到远程服务器读取文件缓存在本地,否则等到命令执行时再读取文件;
(11)文件缓存的时长
文件读取到本地后,缓存多长时间后失效。
(12)是否在用户输入DTMF或者语音时,中止文语转换。
在文语转换和自动语音/DTMF识别同时进行时,文语转换过程中若用户输入DTMF或者语音时,文语转换可以中止。
步骤2,媒体资源处理设备在接收到媒体资源控制设备的指示后,确认该指示,将确认信息反馈媒体资源控制设备,并调用文语转换器进行文语转换,向用户播放转换后的语音。
具体地,在H.248协议包中定义了:
信号(Signal),包括:(1)指示播放TTS文件的信号;(2)指示播放TTS串的信号;(3)指示播放TTS串、TTS文件以及语音片断的信号;(4)指示设置重音的信号;(5)指示设置停顿的信号;以及(6)指示特殊字词的信号,这些信号分别表示如下:
(1)播放TTS文件(Play TTS File),用于指示执行文语转换功能。信号名(Signal Name):          播放TTS文件(P1ay TTS File)
信号标识(SignalID):          ptf(0x??)
说明(Description):           对文本串文件执行TTS功能
信号类型(SignalType):        BR
时长(Duration):              不可用(Not Applicable)
其附加参数(Additional Parameter)包括:
I.
参数名(Parameter Name):      TTS文件
参数标识(Parameter ID):      tf(0x??)
说明:                        TTS文件名和存储位置
类型(Type):                  字符串(String)
是否可选(Optional):          否
可能取值(Possible Value):    合法的文件标识和存储格式
默认值(Default):             无
II.
参数名:                      语言类型(Language Type)
参数标识:                    lt(0x??)
说明:                        语言类型
类型:                        字符串
是否可选:                    否
可能值:                      遵从RFC3066协议
默认值:                      无
III.
参数名:                      性别(Gender)
参数标识:                    ge(0x??)
说明:                        发音性别
类型:            字符串
是否可选:        否
可能值:          男,女,中性
默认值:          无
IV.
参数名:          年龄(Age)
参数标识:        ag(0x??)
说明:            发音年龄
类型:            字符串
是否可选:        否
可能值:          孩子,成人,老人
默认值:          无
V.
参数名:          速度(Speed)
参数标识:        sp(0x??)
说明:            发音速度
类型:            整数
是否可选:        yes
可能值:          从-100%到100%之间的值
默认值:          无
VI.
参数名:          音量(Volume)
参数标识:        vo(0x??)
说明:            发音音量
类型:            整数
是否可选:       是
可能值:         从-100%到100%之间的值
默认值:         无
VII.
参数名:         音调(Tone)
参数标识:       to(0x??)
说明:           发音音调
类型:           整数
是否可选:       是
可能值:         从-100%到100%之间的值
默认值:         无
VII.
参数名:         预读文件(Prefetch)
参数标识:       pf(0x??)
说明:           预读取文本串文件
类型:           enum
是否可选:       是
可能值:         是,否
默认值:         是
VIII.
参数名:         缓存时间(Cache Time)
参数标识:       ct(0x??)
说明:           文件缓存时长
类型:           整数
是否可选:       是
可能值:                   大于0秒
默认值:                   无
IX.
参数名:                   DTMF插入
参数标识:                 dbi(0x??)
说明:                     在用户输入DTMF时,中止文语转换
类型:                     enum
是否可选:                 是
可能值:                   是,否
默认值:                   无
X.
参数名:                   voice barge in
参数标识:                 vbi(0x??)
说明:                     在用户输入者语音时,中止文语转换
类型:                     整数
是否可选:                 是
可能值:                   大于0秒
默认值:                   无
(2)播放TTS串(Play TTS String),用于指示对文本串执行TTS功能。
信号名称:                播放TTS串
信号标识:                pts(0x??)
说明:                    指示对文本串执行TTS功能
信号类型:                BR
时长:                    不可用
其附加参数包括:
I.
参数名:       TTS串(TTS String)
参数标识:     ts(0x??)
说明:         可进行发音的文本串
类型:         字符串
是否可选:     否
可能值:       可进行发音的文本串
默认值:       无
II.其它参数和“播放TTS文件”信号的II、III、IV、V、VI、IX、X相同。
(3)播放TTS串、TTS文件以及语音片断
信号名称:     播放组合(Play union)
信号标识:     pu(0x??)
说明:         播放TTS串、TTS文件、语音片段文件的组合
信号类型:     BR
时长:         不可用
其附加参数包括:
I.
参数名:       TTS和语音片断
参数标识:     ta(0x??)
说明:         播放TTS串、TTS文件、语音片段文件的组合
类型:         字符串
是否可选:     No
可能值:       播放TTS串、TTS文件、语音片段文件的组合
默认值:       无
II.其它参数和“播放TTS文件”信号的II、III、IV、V、VI、IX、X相同。但II、III、IV、V、VI参数只适用于TTS转换过程。
(4)设置重音(Set Accentuation),用于指示TTS的重读级别和位置。
信号名称:            设置重读(Set Accentuation)
信号标识:            sa(0x??)
说明:                指示TTS的重读级别和位置
信号类型:            BR
时长                  不可用
其附加参数包括:
I.
参数名:              重读位置(Accentuation Position)
参数标识:            ap(0x??)
说明:                重读位置
类型:                字符串
是否可选:            是
可能值:              开始位置,句子开头,段落开头
默认值:              无
II.
参数名:              重读级别(Accentuation Grade)
参数标识:            ag(0x??)
说明:                重读级别
类型:                字符串
是否可选:            是
可能值:              高,中,低
默认值:              无
(5)设置停顿(Set Break),用于指示TTS的停顿位置和时长。
信号名称:           设置停顿(Set Break)
信号标识:           sb(0x??)
说明:               指示TTS的停顿位置和时长
类型信号:           BR
时长                 不可用
其附加参数包括:
I.
参数名:             停顿位置(Break Position)
参数标识:           bp(0x??)
说明:               停顿位置
类型:               字符串
是否可选:           否
可能值:             句子的结尾,段落的结尾
默认值:             无
II.
参数名:             停顿时长(Break Time)
参数标识:           bt(0x??)
说明:               停顿时长
类型:               整数
是否可选:           yes
可能值:             大于0毫秒
默认值:             无
(6)特殊字词(Special Words),用于指示TTS对特殊字词的发音方法。信号名称(Signal Name):  特殊字词
信号标识(SignalID):    sw(0x??)
说明:                  指示TTS对特殊字词的发音方法
类型信号:              BR
时长                    不可用
其附加参数参数包括:
I.
参数名:                目标字词(Destination Words)
参数标识:              dw(0x??)
说明:                  文本串中的原始字词
类型:                  字符串
是否可选:              是
可能值:                任何
默认值:                无
II.
参数名:                取代发音(Say As)
参数标识:              sa(0x??)
说明:                  取代的发音方法
类型:                  字符串
是否可选:              是
可能值:                任何
默认值:                无
步骤3,媒体资源控制设备3指示媒体资源处理设备检测文语转换结果。
步骤4,媒体资源处理设备4在接收到该指示之后,确认并返回确认信息。
步骤5,媒体资源控制设备3对文语转换过程进行控制,该控制包括:
1、暂停:暂时停止对用户播放转换后的语音;
2、恢复:恢复以上暂停状态到播放状态;
3、快进和快进到的位置,有多种指示方法:
(1)快进若干个字;
(2)快进到后面某一句的开始;
(3)快进到后面某一段开始;
(4)快进若干秒;
(5)快进若干语音单位(语音单位由实现自定义,如10s)。
4、快退和快退的位置,有多种指示方法:
(1)快退若干个字;
(2)快退到前面某一句开始;
(3)快退到前面某一段开始;
(4)快退若干秒;
(5)快退若干语音单位(语音单位由实现自定义,如10s)。
5、重新开始文语转换;
6、文语转换结束:用户中止
7、重复和重复的范围,有多种指示方法:
(1)重复当前句;
(2)重复当前段;
(3)重复全文;
8、取消重复:取消上述的重复播放;
9、重新设置文语转换参数,包括上述的音调、音量、音速、发音性别、发音年龄、重读位置、停顿位置和时长等参数。
具体地,在H.248协议包中的定义为:
信号:包括TTS暂停、
(1)TTS暂停(TTS Pause),用于指示暂停TTS。
信号名称:               TTS暂停(TTS pause)
信号标识::             tp(0x??)
说明:                   指示暂停TTS
类型信号:                  BR
时长:                      不可用
附加参数:无
(2)TTS恢复(TTS Resume),用于指示恢复TTS暂停。
信号名称:                  TTS恢复(TTS Resume)
信号标识:                  tr(0x??)
说明:                      指示恢复TTS暂停
类型信号:                  BR
时长                        不可用
附加参数:无
(3)TTS跳过字词(TTS Jump Words),用于指示跳过几个字后继续进行。
信号名称:                  TTS跳过字词
信号标识:                  tjw(0x??)
说明:                      指示跳到某一个位置继续进行
类型信号:                  BR
时长:                      不可用
附加参数:
I.
参数名:                   跳过多少(Jump Size)
参数标识:                 js(0x??)
说明:                     跳过的字个数,正表示向后,负表示向前
类型:                     整数
是否可选:                 否
可能值:                     任何
默认值:                     无
(4)TTS跳过句子(TTS Jump Sentences),用于指示跳过几个句子后继续进行。
信号名称:                   TTS jump sentences
信号标识:                   tjs(0x??)
说明:                       指示跳过几个句子后继续进行
类型信号:                   BR
时长:                       不可用
附加参数包括:
I.
参数名:                     跳过多少
参数标识:                   js(0x??)
说明:                       跳转的句子个数,正表示向后,负表示向前
类型:                       整数
是否可选:                   否
可能值:                     任何
默认值:                     无
(5)TTS跳过段落(TTS Jump Paragraphs),用于指示跳过几个段落后继续进行。
信号名称:                   TTS跳过段落
信号标识:                   tjp(0x??)
说明:                       指示跳过几个段落后继续进行
类型信号:                   BR
时长:                       不可用
附加参数包括:
I.
参数名:                  跳过多少
参数标识:                js(0x??)
说明:                    跳转的段落个数,正表示向后,负表示向前
类型:                    整数
是否可选:                否
可能值:                  任何
默认值:                  无
(6)TTS跳过秒数(TTS Jump Seconds),用于指示跳过几秒的语音后继续进行。
信号名称:                TTS跳过秒数
信号标识:                tjs(0x??)
说明:                    指示跳过几秒语音后继续进行
类型信号:                BR
时长:                    不可用
附加参数包括:
I.
参数名:                  跳过多少
参数标识:                js(0x??)
说明:                    跳转的秒数,正表示向后,负表示向前
类型:                    整数
是否可选:                否
可能值:                  任何
默认值:                  无
(7)TTS跳过语音单元(TTS Jump Voice Unit),用于指示跳过几个语音单元后继续进行。
信号名称:              TTS跳过语音单元
信号标识:              tjvu(0x??)
说明:                  指示跳过几个语音单元后继续进行,语音单元大
                        小实现自定义
类型信号:              BR
时长:                  不可用
附加参数包括:
I.
参数名:                跳过多少
参数标识:              js(0x??)
说明:                  跳转的语音单元数,正表示向后,负表示向前
类型:                  整数
是否可选:              否
可能值:                任何
默认值:                无
(8)TTS重新开始(TTS Restart)
信号名称:              TTS重新开始
信号标识:              tr(0x??)
说明:                  TTS重新开始
类型信号:              BR
时长:                  不可用
附加参数:无
(9)TTS结束(TTS End)
信号名称:              TTS结束
信号标识:    te(0x??)
说明:        TTS结束
类型信号:    BR
时长:        不可用
附加参数:    无
(10)TTS重复(TTS Repeat),指示重复进行TTS的某一段文字。
信号名称:    TTS重复
信号标识:    tre(0x??)
说明:        重复进行TTS的某一段文字
类型信号:    BR
时长:       不可用
附加参数包括:
I.
参数名:      重复位置
参数标识:    pos(0x??)
说明:        重复位置
类型:        字符串
是否可选:    否
可能值:      当前句子,当前段落,所有内容
默认值:      无
是否可选:    yes
可能值:      大于0秒
步骤6,媒体资源处理设备4在接收到该指示之后,确认并返回确认信息。
步骤7,媒体资源处理设备4将在文语转换过程中检测到的事件如正常结束,超时等反馈给媒体资源控制设备3。
文语转换过程检测到的事件包括:异常情况下的错误码、以及正常转换结束时描述结果的参数。
1、文语转换功能执行的错误码
媒体资源处理设备在执行文语转换过程中,若产生异常,要向媒体资源控制设备返回具体的错误码。错误码的具体值由标准组织统一分配,内容包括:
(1)不能识别的单词或者字;
(2)不能发音的字;
(3)文本串文件不存在;
(4)文本串文件读取错误;
(5)参数不支持或者错误;
(6)对文语转换的控制不支持或者错误;
(7)媒体资源处理设备硬件错误;
(8)媒体资源处理设备软件错误;
(9)其它错误。
2、文语转换正常结束后返回的描述结果的参数
文语转换正常结束时,可以返回以下信息:
(1)文语转换过程正常结束;
(2)用户输入触发文语转换中止:用户输入中止键,用户输入DTMF,用户输入语音。
(3)统计信息:向用户播放的文语转换语音时长。
具体如下:
事件:
(1)TTS执行失败(TTS Failure)
事件名(Event Name):                      TTS执行失败
事件标识(EventID):                       ttsfail(0x??)
说明:                                    文语转换执行失败,返回错误码
事件说明参数(EventDescriptor Parameters)  无
检测到的事件参数(ObservedEventDescriptor parameters)包括:
I.
参数名:                          错误返回码(Error Return Code)
参数标识:                        erc(0x??)
说明:                            错误码参数
参数类型:                        整数
是否可选:                        否
可能值:                          以上方案定义的错误码
默认值:                          无
(2)TTS执行完成(TTS Success)
事件名称:                        TTS执行完成
事件标识:                        ttssuss(0x??)
说明:                            文语转换执行完成,返回结果
事件说明参数:                    无
检测到的事件参数(ObservedEventDescriptor parameters)包括:
L.
参数名:                          结束原因(End Cause)
参数标识:                        ec(0x??)
说明:                            触发文语转换结束的原因
类型:                            整数
是否可选:                        是
可能值:                          转换完成,用户输入DTMF、用户输入语音
默认值:                          无
II.
参数名:                          TTS时间(TTS Time)
参数标识:                   tt(0x??)
说明:                       执行文语转换的时长
类型:                       整数
是否可选:                   是
可能值:                     大于0秒
默认值:                     无
步骤8,媒体资源控制设备3将确认消息反馈给媒体资源处理设备4,文语转换结束。
通过本发明提供的方法,可以在移动或者固网的媒体资源应用中,给用户提供文语转换相关的业务应用,如把网页上的内容转成声音读给用户听。同时,在修改时只需修改文本,不需要重新录音,并且可以根据用户需求播放更个性化的提示音。
可以理解的是,本发明并不限于上述的实施例,本领域的技术人员可以在理解本发明的基础上进行相应的变更或者修饰。例如,媒体资源控制设备3可以同时向媒体资源处理设备4发出上述步骤1和步骤3中的指示,并且媒体资源处理设备4可以同时执行步骤2和步骤4中的操作。

Claims (18)

1.一种实现文语转换功能的方法,其特征在于,媒体资源控制设备通过H.248协议,控制媒体资源处理设备实现文语转换,该方法包括以下步骤:
步骤一,媒体资源控制设备通过定义H.248协议扩展包,在H.248消息中携带扩展包参数,指示媒体资源处理设备执行与该参数相应的文语转换处理;以及
步骤二,媒体资源处理设备根据上述消息中的参数调用文语转换器执行文语转换处理,并将文语转换结果反馈媒体资源控制设备。
2.如权利要求1所述的方法,其特征在于,该扩展包参数中携带有文本串的相关信息,媒体资源处理设备根据该文本串的相关信息,调用文语转换器进行文语转换。
3.如权利要求2所述的方法,其特征在于,上述文本串的相关信息为该文本串本身,其作为能被正确发音的字符串嵌入在H.248消息中,媒体资源处理设备接收到该文本串后,直接提取该文本串调用文语转换器进行文语转换。
4.如权利要求2所述的方法,其特征在于,当文本串预先存储在媒体资源处理设备或者外部服务器上时,上述文本串的相关信息为包括该文本串的标识和存储位置信息的文本文件,媒体资源处理设备接收到上述文本文件后,根据其中的存储位置信息,从本地或者外部服务器读取文本串放入缓存,并调用文语转换器进行文语转换。
5.如权利要求2所述的方法,其特征在于,上述文本串的相关信息包括文本串和另一文本串的文本文件,该文本文件包括该另一文本串的标识和存储位置信息,该文本文件的标识和文本串组合成连续文本串,并在文本文件标识前增加关键词标识该组合为一发音文本文件,媒体资源处理设备接收到该组合后,首先从本地或者外部服务器读取文本串,将其和H.248消息中携带的发音文本串进行串接后放入缓存,然后调用文语转换器进行文语转换。
6.如权利要求2所述的方法,其特征在于,上述文本串的相关信息包括一文本串和一录音文件的组合,并在文本串前增加关键词标识该组合为一语音文件,媒体资源处理设备接收到该组合后,首先调用文语转换器对文本串进行文语转换,然后将文语转换后输出的语音与录音文件组合一语音片断。
7.如权利要求2所述的方法,其特征在于,上述文本串的相关信息包括一文本文件和一录音文件的组合,该文本文件包括该另一文本串的标识和存储位置信息,并在该标识前增加关键词标识该组合为一语音文件,媒体资源处理设备接收到该组合后,首先根据存储位置信息从本地或者外部服务器读取文本串放入缓存,然后调用文语转换器对读取的文本串进行文语转换,并将文语转换后输出的语音与录音文件组合一语音片断。
8.如权利要求2所述的方法,其特征在于,该H.248消息中进一步携带有文语转换输出的语音属性的相关参数,该相关参数包括:发音语言种类、发音性别、发音年龄、发音速度、发音音量、发音音调、特殊文字的发音方式、停顿、重读、或者在用户输入时是否中止文语转换,媒体资源处理设备接收到该相关参数后调用文语转换器为输出的语音设置相应的属性。
9.如权利要求1至8任何一项所述的方法,其特征在于,在步骤二中媒体资源处理设备调用文语转换器执行文语转换过程中,进一步包括:
步骤21,媒体资源控制设备指示媒体资源处理设备检测语音识别过程中发生的异常事件。
10.如权利要求9所述的方法,其特征在于,在检测到异常事件时,媒体资源处理设备将表示异常事件相应的错误码反馈给媒体资源控制设备。
11.如权利要求9所述的方法,其特征在于,在步骤二中媒体资源处理设备调用文语转换器执行文语转换过程中,进一步包括:
步骤22,媒体资源控制设备对文语转换过程进行控制。
12.如权利要求11所述的方法,其特征在于,媒体资源控制设备对文语转换过程的控制包括暂时停止对用户播放文语转换后的语音。
13.如权利要求12所述的方法,其特征在于,媒体资源控制设备对文语转换过程的控制进一步包括从上述暂停状态恢复到播放状态。
14.如权利要求11所述的方法,其特征在于,媒体资源控制设备对文语转换过程的控制包括使播放快进或者快退,该快进包括快进若干字、句子或者段落,或者快进若干秒,该快退包括包括快退若干字、句子或者段落,或者快退若干秒。
15.如权利要求11所述的方法,其特征在于,媒体资源控制设备对文语转换过程的控制包括重新开始文语转换。
16.如权利要求11所述的方法,其特征在于,媒体资源控制设备对文语转换过程的控制包括用户中止文语转换。
17.如权利要求11所述的方法,其特征在于,媒体资源控制设备对文语转换过程的控制包括重复播放当前句、段落或者全文。
18.如权利要求17所述的方法,其特征在于,媒体资源控制设备对文语转换过程的控制进一步包括取消对当前句、段落或者全文的重复播放。
CNB2005101142778A 2005-10-21 2005-10-21 一种实现文语转换功能的方法 Expired - Fee Related CN100487788C (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CNB2005101142778A CN100487788C (zh) 2005-10-21 2005-10-21 一种实现文语转换功能的方法
PCT/CN2006/002806 WO2007045187A1 (fr) 2005-10-21 2006-10-20 Procede, appareil et systeme pour executer la fonction de conversion texte-parole
DE602006014578T DE602006014578D1 (de) 2005-10-21 2006-10-20 Verfahren, vorrichtung und system zur erzielung der funktion einer text-zu-sprache-umsetzung
AT06805015T ATE469415T1 (de) 2005-10-21 2006-10-20 Verfahren, vorrichtung und system zur erzielung der funktion einer text-zu-sprache-umsetzung
EP06805015A EP1950737B1 (en) 2005-10-21 2006-10-20 A method, device and system for accomplishing the function of text-to-speech conversion
US12/106,693 US20080205279A1 (en) 2005-10-21 2008-04-21 Method, Apparatus and System for Accomplishing the Function of Text-to-Speech Conversion

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005101142778A CN100487788C (zh) 2005-10-21 2005-10-21 一种实现文语转换功能的方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN2007101530700A Division CN101222542B (zh) 2005-10-21 2005-10-21 一种实现文语转换功能的方法

Publications (2)

Publication Number Publication Date
CN1953053A true CN1953053A (zh) 2007-04-25
CN100487788C CN100487788C (zh) 2009-05-13

Family

ID=37962207

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005101142778A Expired - Fee Related CN100487788C (zh) 2005-10-21 2005-10-21 一种实现文语转换功能的方法

Country Status (6)

Country Link
US (1) US20080205279A1 (zh)
EP (1) EP1950737B1 (zh)
CN (1) CN100487788C (zh)
AT (1) ATE469415T1 (zh)
DE (1) DE602006014578D1 (zh)
WO (1) WO2007045187A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010078823A1 (zh) * 2009-01-12 2010-07-15 华为技术有限公司 一种基于文本的媒体控制方法、装置和系统
CN102202279A (zh) * 2010-03-23 2011-09-28 华为技术有限公司 媒体资源控制方法、装置、媒体资源节点及媒体资源控制系统
CN110505432A (zh) * 2018-05-18 2019-11-26 视联动力信息技术股份有限公司 一种视频会议操作结果的展示方法和装置
CN110797003A (zh) * 2019-10-30 2020-02-14 合肥名阳信息技术有限公司 一种文本转语音显示字幕信息的方法
CN112437333A (zh) * 2020-11-10 2021-03-02 深圳Tcl新技术有限公司 节目播放方法、装置、终端设备以及存储介质
CN113360704A (zh) * 2021-06-30 2021-09-07 北京字跳网络技术有限公司 语音播放方法、装置和电子设备

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009265279A (ja) * 2008-04-23 2009-11-12 Sony Ericsson Mobilecommunications Japan Inc 音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム
JP2013521735A (ja) * 2010-03-09 2013-06-10 アルカテル−ルーセント ディジットのボイス通信
KR102421745B1 (ko) * 2017-08-22 2022-07-19 삼성전자주식회사 Tts 모델을 생성하는 시스템 및 전자 장치

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1045372A3 (en) * 1999-04-16 2001-08-29 Matsushita Electric Industrial Co., Ltd. Speech sound communication system
US20030028380A1 (en) * 2000-02-02 2003-02-06 Freeland Warwick Peter Speech system
FI115868B (fi) * 2000-06-30 2005-07-29 Nokia Corp Puhesynteesi
US7194071B2 (en) * 2000-12-28 2007-03-20 Intel Corporation Enhanced media gateway control protocol
US7068598B1 (en) * 2001-02-15 2006-06-27 Lucent Technologies Inc. IP packet access gateway
US7020611B2 (en) * 2001-02-21 2006-03-28 Ameritrade Ip Company, Inc. User interface selectable real time information delivery system and method
US7185094B2 (en) * 2001-03-30 2007-02-27 Sandcherry, Inc. Media session framework using a control module to direct and manage application and service servers
US20020184346A1 (en) * 2001-05-31 2002-12-05 Mani Babu V. Emergency notification and override service in a multimedia-capable network
US20030158735A1 (en) * 2002-02-15 2003-08-21 Canon Kabushiki Kaisha Information processing apparatus and method with speech synthesis function
US20030187658A1 (en) * 2002-03-29 2003-10-02 Jari Selin Method for text-to-speech service utilizing a uniform resource identifier
US7451207B2 (en) 2002-06-28 2008-11-11 Intel Corporation Predictive provisioning of media resources
CN1286308C (zh) * 2003-11-12 2006-11-22 中兴通讯股份有限公司 一种h.248消息分级编解码的实现方法
CN1547190A (zh) * 2003-11-30 2004-11-17 中兴通讯股份有限公司 承载控制分离网络中语音通知包的构造和解析方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010078823A1 (zh) * 2009-01-12 2010-07-15 华为技术有限公司 一种基于文本的媒体控制方法、装置和系统
CN102202279A (zh) * 2010-03-23 2011-09-28 华为技术有限公司 媒体资源控制方法、装置、媒体资源节点及媒体资源控制系统
CN102202279B (zh) * 2010-03-23 2015-08-19 华为技术有限公司 媒体资源控制方法、装置、媒体资源节点及媒体资源控制系统
CN110505432A (zh) * 2018-05-18 2019-11-26 视联动力信息技术股份有限公司 一种视频会议操作结果的展示方法和装置
CN110797003A (zh) * 2019-10-30 2020-02-14 合肥名阳信息技术有限公司 一种文本转语音显示字幕信息的方法
CN112437333A (zh) * 2020-11-10 2021-03-02 深圳Tcl新技术有限公司 节目播放方法、装置、终端设备以及存储介质
CN112437333B (zh) * 2020-11-10 2024-02-06 深圳Tcl新技术有限公司 节目播放方法、装置、终端设备以及存储介质
CN113360704A (zh) * 2021-06-30 2021-09-07 北京字跳网络技术有限公司 语音播放方法、装置和电子设备

Also Published As

Publication number Publication date
CN100487788C (zh) 2009-05-13
ATE469415T1 (de) 2010-06-15
DE602006014578D1 (de) 2010-07-08
WO2007045187A1 (fr) 2007-04-26
US20080205279A1 (en) 2008-08-28
EP1950737B1 (en) 2010-05-26
EP1950737A1 (en) 2008-07-30
EP1950737A4 (en) 2008-11-26

Similar Documents

Publication Publication Date Title
CN100487788C (zh) 一种实现文语转换功能的方法
US7657563B2 (en) System, method and storage medium for providing a multimedia contents service based on user&#39;s preferences
JP3936718B2 (ja) インターネットコンテンツのアクセスに関するシステム及び方法
US5920835A (en) Method and apparatus for processing and transmitting text documents generated from speech
EP1311102A1 (en) Streaming audio under voice control
CN100517322C (zh) 媒体转换装置和方法
JP2003520983A5 (zh)
US8005199B2 (en) Intelligent media stream recovery
JP2005504448A (ja) 強化媒体ゲートウェイ制御プロトコル
CA2537741A1 (en) Dynamic video generation in interactive voice response systems
GB2399983A (en) Picture storage and retrieval system for telecommunication system
CN1329739A (zh) 到服务应用程序上的用户接口的声音控制
CN101322408A (zh) 无触发信号的交互式电视
CN101222542B (zh) 一种实现文语转换功能的方法
CN109274696A (zh) 基于dash协议的流媒体播放方法及装置
CN107342088A (zh) 一种声音信息的转换方法、装置及设备
CN109243450A (zh) 一种交互式的语音识别方法及系统
US20010048736A1 (en) Communication system for delivering and managing content on a voice portal platform
CN100426377C (zh) 一种实现语音识别功能的方法
CN101729827A (zh) 一种语音服务方法、系统及数字电视接收终端和前端设备
US20070135082A1 (en) Dynamic content stream delivery to a telecommunications terminal based on the state of the terminal&#39;s battery
US20230130386A1 (en) Audio Assistance During Trick Play Operations
CN104717536A (zh) 一种语音控制的方法和系统
CN113114860B (zh) 基于Web的音视频应答系统及其使用方法
CN101789256A (zh) 一种音视频播放器的控制方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: INVENT CO., LTD.

Free format text: FORMER OWNER: HUAWEI TECHNOLOGY CO., LTD.

Effective date: 20140526

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20140526

Address after: California, USA

Patentee after: INVENT Corp.

Address before: 518000 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20170705

Address after: California, USA

Patentee after: Yingweite SPE LLC

Address before: California, USA

Patentee before: INVENT CORP.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090513