CN103577148A - 语音朗读方法及装置 - Google Patents
语音朗读方法及装置 Download PDFInfo
- Publication number
- CN103577148A CN103577148A CN201310625061.2A CN201310625061A CN103577148A CN 103577148 A CN103577148 A CN 103577148A CN 201310625061 A CN201310625061 A CN 201310625061A CN 103577148 A CN103577148 A CN 103577148A
- Authority
- CN
- China
- Prior art keywords
- sentence
- word
- result
- output
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及人机交互技术领域,公开了一种语音朗读方法及装置,该方法包括:获取需要输出的文本信息并对其进行语义处理;对语义处理结果进行中文分词,通过匹配算法将与中文词典中词条相匹配的文本信息逐词输出为分词后的结果;按照分词后的结果进行语音朗读。本发明的技术方案通过语义处理和中文分词对文本信息进行加工,将文本信息拆分成与自然语言表述方式接近的各个词语进行语音朗读输出,使朗读效果更接近于用户习惯,改进了用户体验。
Description
技术领域
本发明涉及人机交互技术领域,特别涉及一种语音朗读方法及装置。
背景技术
人机交互最重要的目的之一就是把计算机设备中使用的信息转换成人类容易理解的直观的表述方式进行输出。其中,图形用户界面就是把原有的纯文字输出内容以图标、图形和动画等视觉形式展示给用户,是目前最主要的人机交互方式。图形用户界面的输出方式虽然直观,但其显然并不适用于所有情况,比如对于盲人用户、或是纯文本阅读时,图形用户界面并不能给用户的操作带来更多的便利。
在此情况下出现了语音朗读技术,以便将文字信息转换为语音输出提供给用户。但是,目前的语音朗读基本上是逐字输出,与自然语言的连读存在极大差异,从用户的角度来看输出结果极为机械,有些甚至会影响用户的正常识别,实际输出效果不佳。现有技术中也出现了逐词输出的语音朗读方式,但目前逐词输出主要是顺序匹配词语,并未考虑整句的语法和语义,经常会出现断句错误,输出结果同样让用户感觉生硬机械,交互方式并不友好。
发明内容
针对现有技术的缺陷,本发明所要解决的技术问题是如何进行自然的语音朗读输出。
为解决上述问题,本发明的一方面提供了一种语音朗读方法,所述方法包括步骤:
S1,获取需要输出的文本信息并对其进行语义处理;
S2,对语义处理结果进行中文分词,通过匹配算法将与中文词典中词条相匹配的文本信息逐词输出为分词后的结果;
S3,按照分词后的结果进行语音朗读。
优选地,所述方法步骤S1中,语义处理包括对句子进行语法结构分析,将句子拆分为多个语法块。
优选地,对于长句,先通过连接词分析将长句拆分为短句,然后再对各短句进行语法结构分析。
优选地,所述方法步骤S2中,进行中文分词的同时还利用语义处理结果进行反馈训练,对分词规则进行优化。
优选地,采用神经网络算法进行反馈训练。
另一方面,本发明还同时提供了一种语音朗读装置,所述装置包括:
语义模块,用于获取需要输出的文本信息并对其进行语义处理;
分词模块,用于对语义处理结果进行中文分词,通过匹配算法将与中文词典中词条相匹配的文本信息逐词输出为分词后的结果;
朗读模块,用于按照分词后的结果进行语音朗读。
优选地,所述语义模块中包括:语法单元,用于对句子进行语法结构分析,将句子拆分为多个语法块。
优选地,所述语义模块中还包括:长句单元,用于通过连接词分析将长句拆分为短句,然后再将各短句发送到语法单元处理。
优选地,所述分词模块中包括:训练单元,用于在进行中文分词的同时还利用语义处理结果进行反馈训练,对分词规则进行优化。
优选地,所述分词模块中还包括:
更新单元,用于根据反馈训练结果更新中文词典。
本发明的技术方案通过语义处理和中文分词对文本信息进行加工,将文本信息拆分成与自然语言表述方式接近的各个词语进行语音朗读输出,使朗读效果更接近于用户习惯,改进了用户体验。
附图说明
图1为本发明一个实施例中语音朗读方法的流程示意图;
图2为本发明一个实施例中语音朗读装置的模块结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例为实施本发明的较佳实施方式,所述描述是以说明本发明的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围应当以权利要求所界定者为准,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前已有的文字转语音的朗读系统只是实现了文字到语音的基本转换功能,并没有考虑整句的输出效果,语音听感生硬机械、不友好,且系统本身无自训练学习的能力,不能根据系统自身的使用过程进行进一步优化。
本发明的技术方案中,提供了一种输出效果自然真实的语音朗读方法及装置,通过对整句的语义进行处理,实现了自然的中文分词,使语音朗读效果更接近自然语言,提升了交互效果。参见图1,在本发明的一个实施例中,语音朗读方法包括步骤:
S1,获取需要输出的文本信息并对其进行语义处理;
S2,对语义处理结果进行中文分词,通过匹配算法将与中文词典中词条相匹配的文本信息逐词输出为分词后的结果;
S3,按照分词后的结果进行语音朗读。
上述方法步骤S1中,语义处理包括对句子进行语法结构分析,将句子拆分为多个语法块。优选地,对于长句,先通过连接词分析将长句拆分为短句,然后再对各短句进行语法结构分析。
上述方法步骤S2中,进行中文分词的同时还利用语义处理结果进行反馈训练,优化分词规则,提高分词命中率。优选地,采用神经网络算法进行反馈训练。更优选地,根据反馈训练结果更新中文词典。神经网络算法是对中文分词技术的补充,通过系统在使用过程中经历的大量样本的训练,优化自身分词规则,使系统能在以后的使用过程中对句子做出更正确的切分。
更具体地,本发明上述方法步骤S2中,使用的是一种基于句法、语义分析相结合的匹配算法。句法分析基本思想是对给定输入源(一个完整的句子),以机器语法库中的语法规则(一种面向机器处理的形式语法)为主要知识源,自顶而下分析,生成短语句法树,短语句法树严格符合语法库中的语法特征。这样,即使输入源(一个完整的句子)可能会产生不同的歧义,但在一棵短语句法树中,语义是明确的,因此上述句法分析本质是消除歧义的过程。语义分析是对句法分析的补充,句法分析解析了一部分结构歧义,语义分析解析词汇歧义。从机器层面上讲,其实现是建立语义网络,将不同概念的词汇通过一定的关系连接。语义网络由节点和有向弧组成,节点代表词汇、有向弧代表关系,这样的关系可以是实体联系(ISA,“is a”),如“北纬通信是一家公司”这种关系;也可以是泛化联系(AKO,“a kind of”),如“人类属于灵长目”这种关系等。于是,通过句法分析解析结构歧义、再通过语义分析解析词汇歧义,可以准确地将长句拆分为单词的组合,随后查询词典,判断词典中是否存在与单词相匹配的词条,若存在则直接将单词作为分词结果输出,若不存在则在输出的同时进行反馈训练。
对于BP神经网络算法的基本原理不做赘述,本发明使用的是一种三层前向网络,即包含控制输入的输入层、逻辑处理的隐层和结果输出的输出层。输入层以若干个组组成,考虑到汉字在字符编码中由两字节也就是16个比特位构成,因此对于n个文字的输入,输入层则由16*n个神经元组成,而输出层只有一个神经元,由输出值跟预设定阈值比较判断输入后是否处于分词位置。
整个神经网络算法包含一个工作信号正向传播和一个误差信号反向传递过程,正向传播的信号输入输出由激励函数和预设的初始连接权值控制,将输出结果和期望输出结果比较计算误差,然后将误差反向传递并计算连接权值的修正值,通过权值的不断修正使得实际输出更接近期望输出,达到训练学习的目的。
显然,获取文本信息可以通过计算机设备的各种输入手段,比如用户键盘输入、网络传输等;而语音朗读则是通过预置的语音库,将各个词语对应的语音效果通过扬声器输出,在此不再一一详细列举。
本领域普通技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而所述的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。因此,本领域相关技术人员应能理解,与本发明的方法相对应的,本发明还同时包括一种语音朗读装置,与上述方法步骤一一对应地,如图2所示,该装置包括:
语义模块201,用于获取需要输出的文本信息并对其进行语义处理;
分词模块202,用于对语义处理结果进行中文分词,通过匹配算法将与中文词典中词条相匹配的文本信息逐词输出为分词后的结果;
朗读模块203,用于按照分词后的结果进行语音朗读。
在本发明的一个优选实施例中,所述语义模块中包括:语法单元,用于对句子进行语法结构分析,将句子拆分为多个语法块。进一步地,语义模块中还包括:长句单元,用于通过连接词分析将长句拆分为短句,然后再将各短句发送到语法单元处理。
在本发明的另一个优选实施例中,所述分词模块中包括:训练单元,用于在进行中文分词的同时还利用语义处理结果进行反馈训练,对分词规则进行优化。优选地,所述训练单元采用神经网络算法进行反馈训练。更优选地,分词模块中还包括:更新单元,用于根据反馈训练结果更新中文词典。
与现有技术相比,本发明的技术方案通过语义处理和中文分词对文本信息进行加工,将文本信息拆分成与自然语言表述方式接近的各个词语进行语音朗读输出,使朗读效果更接近于用户习惯,改进了用户体验。此外,通过神经网络算法对分词规则进行反馈训练,可以进一步提高分词的准确性。
虽然以上结合优选实施例对本发明进行了描述,但本领域的技术人员应该理解,本发明所述的方法和系统并不限于具体实施方式中所述的实施例,在不背离由所附权利要求书限定的本发明精神和范围的情况下,可对本发明作出各种修改、增加、以及替换。
Claims (10)
1.一种语音朗读方法,其特征在于,所述方法包括步骤:
S1,获取需要输出的文本信息并对其进行语义处理;
S2,对语义处理结果进行中文分词,通过匹配算法将与中文词典中词条相匹配的文本信息逐词输出为分词后的结果;
S3,按照分词后的结果进行语音朗读。
2.根据权利要求1所述的方法,其特征在于,所述方法步骤S1中,语义处理包括对句子进行语法结构分析,将句子拆分为多个语法块。
3.根据权利要求2所述的方法,其特征在于,对于长句,先通过连接词分析将长句拆分为短句,然后再对各短句进行语法结构分析。
4.根据权利要求1所述的方法,其特征在于,所述方法步骤S2中,进行中文分词的同时还利用语义处理结果进行反馈训练,对分词规则进行优化。
5.根据权利要求4所述的方法,其特征在于,采用神经网络算法进行反馈训练。
6.一种语音朗读装置,其特征在于,所述装置包括:
语义模块,用于获取需要输出的文本信息并对其进行语义处理;
分词模块,用于对语义处理结果进行中文分词,通过匹配算法将与中文词典中词条相匹配的文本信息逐词输出为分词后的结果;
朗读模块,用于按照分词后的结果进行语音朗读。
7.根据权利要求6所述的装置,其特征在于,所述语义模块中包括:
语法单元,用于对句子进行语法结构分析,将句子拆分为多个语法块。
8.根据权利要求7所述的装置,其特征在于,所述语义模块中还包括:
长句单元,用于通过连接词分析将长句拆分为短句,然后再将各短句发送到语法单元处理。
9.根据权利要求6所述的装置,其特征在于,所述分词模块中包括:
训练单元,用于在进行中文分词的同时还利用语义处理结果进行反馈训练,对分词规则进行优化。
10.根据权利要求6所述的装置,其特征在于,所述分词模块中还包括:
更新单元,用于根据反馈训练结果更新中文词典。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310625061.2A CN103577148A (zh) | 2013-11-28 | 2013-11-28 | 语音朗读方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310625061.2A CN103577148A (zh) | 2013-11-28 | 2013-11-28 | 语音朗读方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103577148A true CN103577148A (zh) | 2014-02-12 |
Family
ID=50049007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310625061.2A Pending CN103577148A (zh) | 2013-11-28 | 2013-11-28 | 语音朗读方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103577148A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108806671A (zh) * | 2018-05-29 | 2018-11-13 | 杭州认识科技有限公司 | 语义分析方法、装置及电子设备 |
CN111292715A (zh) * | 2020-02-03 | 2020-06-16 | 北京奇艺世纪科技有限公司 | 语音合成方法、装置、电子设备及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5802533A (en) * | 1996-08-07 | 1998-09-01 | Walker; Randall C. | Text processor |
CN1279422A (zh) * | 1999-07-06 | 2001-01-10 | 英业达集团(西安)电子技术有限公司 | 复读输入字元的方法与装置 |
CN1471025A (zh) * | 2002-07-25 | 2004-01-28 | 摩托罗拉公司 | 使用韵律控制的中文文本至语音拼接合成系统及方法 |
US20050192812A1 (en) * | 2001-02-09 | 2005-09-01 | Buchholz Dale R. | Method and apparatus for encoding and decoding pause information |
CN1731509A (zh) * | 2005-09-02 | 2006-02-08 | 清华大学 | 移动语音合成方法 |
-
2013
- 2013-11-28 CN CN201310625061.2A patent/CN103577148A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5802533A (en) * | 1996-08-07 | 1998-09-01 | Walker; Randall C. | Text processor |
CN1279422A (zh) * | 1999-07-06 | 2001-01-10 | 英业达集团(西安)电子技术有限公司 | 复读输入字元的方法与装置 |
US20050192812A1 (en) * | 2001-02-09 | 2005-09-01 | Buchholz Dale R. | Method and apparatus for encoding and decoding pause information |
CN1471025A (zh) * | 2002-07-25 | 2004-01-28 | 摩托罗拉公司 | 使用韵律控制的中文文本至语音拼接合成系统及方法 |
CN1731509A (zh) * | 2005-09-02 | 2006-02-08 | 清华大学 | 移动语音合成方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108806671A (zh) * | 2018-05-29 | 2018-11-13 | 杭州认识科技有限公司 | 语义分析方法、装置及电子设备 |
CN108806671B (zh) * | 2018-05-29 | 2019-06-28 | 杭州认识科技有限公司 | 语义分析方法、装置及电子设备 |
CN111292715A (zh) * | 2020-02-03 | 2020-06-16 | 北京奇艺世纪科技有限公司 | 语音合成方法、装置、电子设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11942082B2 (en) | Facilitating communications with automated assistants in multiple languages | |
Sproat et al. | RNN approaches to text normalization: A challenge | |
US11354521B2 (en) | Facilitating communications with automated assistants in multiple languages | |
US9805718B2 (en) | Clarifying natural language input using targeted questions | |
KR102386854B1 (ko) | 통합 모델 기반의 음성 인식 장치 및 방법 | |
CN103314369B (zh) | 机器翻译装置和方法 | |
EP4109324A2 (en) | Method and apparatus for identifying noise samples, electronic device, and storage medium | |
KR20160058531A (ko) | 딥 러닝을 이용하는 구문 분석 모델 구축 방법 및 이를 수행하는 장치 | |
CN107885703A (zh) | 数学翻译器、数学翻译设备及平台 | |
CN105225659A (zh) | 一种指令式语音控制发音词典辅助生成方法 | |
Kang | Spoken language to sign language translation system based on HamNoSys | |
CN103577148A (zh) | 语音朗读方法及装置 | |
Ihori et al. | Parallel corpus for Japanese spoken-to-written style conversion | |
CN113822044A (zh) | 语法纠错数据生成方法、装置、计算机设备及存储介质 | |
CN112905835A (zh) | 一种多模态乐曲标题生成方法、装置及存储介质 | |
KR20140079546A (ko) | 대화 인터페이스를 이용한 외국어 학습장치 | |
US11893349B2 (en) | Systems and methods for generating locale-specific phonetic spelling variations | |
CN113555006B (zh) | 一种语音信息识别方法、装置、电子设备及存储介质 | |
Zhang et al. | Natural Language Processing and Chinese Computing: 7th CCF International Conference, NLPCC 2018, Hohhot, China, August 26–30, 2018, Proceedings, Part I | |
Vijayanand et al. | Named entity recognition and transliteration for Telugu language | |
Bux et al. | Speech to Text by Using the Sindhi Language | |
Kamath et al. | English to Konkani Translator Using Hindi as a Pivot Language | |
KR20230156795A (ko) | 단어 분할 규칙화 | |
CN113761189A (zh) | 一种修正文本的方法、装置、计算机设备及存储介质 | |
CN112560497A (zh) | 语义理解方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140212 |