CN108597517A - 标点符号添加方法、装置、计算机设备和存储介质 - Google Patents
标点符号添加方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN108597517A CN108597517A CN201810191276.0A CN201810191276A CN108597517A CN 108597517 A CN108597517 A CN 108597517A CN 201810191276 A CN201810191276 A CN 201810191276A CN 108597517 A CN108597517 A CN 108597517A
- Authority
- CN
- China
- Prior art keywords
- state
- punctuation mark
- text
- target text
- weighted finite
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000010276 construction Methods 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 19
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 description 13
- 238000005516 engineering process Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种标点符号添加方法、装置、计算机设备和存储介质。所述方法包括:获取待添加标点符号的目标文本;根据所述目标文本和预设标点符号集构造第一加权有限状态转换机;将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机;对所述第一加权有限状态机和所述第二加权有限状态转换机进行合并;对合并获得的第三加权有限状态转换机中进行最优路径搜索,获得带标点符号的目标文本。采用本方法能够提高对目标文本对应添加的标点符号的准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种标点符号添加方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,出现了语音识别技术,语音识别技术利用计算机从采集到的语音信息中识别出相应的语音内容,即将数字语音信息识别成相应的文本。用户可以基于语音识别技术将语音信息识别成相应的文本,避免了手动输入文本的繁琐,给人们生活带来了便利。目前语音识别技术识别输出的文本是不带标点符号的,而在实际应用中往往需要在输出的文本中添加相应的标点符号,以便于人们阅读理解文本。
目前在文本中添加标点符号的方式,主要是利用额外的分类器根据语音信息中停顿时间的长短确定对应添加的标点符号。然而,文本中添加的标点符号和语音信息中停顿时间的长短没有必然的联系,降低了所添加的标点符号的准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高添加的标点符号的准确性的标点符号添加方法、装置、计算机设备和存储介质。
一种标点符号添加方法,所述方法包括:
获取待添加标点符号的目标文本;
根据所述目标文本和预设标点符号集构造第一加权有限状态转换机;
将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机;
对所述第一加权有限状态机和所述第二加权有限状态转换机进行合并;
对合并获得的第三加权有限状态转换机中进行最优路径搜索,获得带标点符号的目标文本。
在其中一个实施例中,所述根据所述目标文本和预设标点符号集构造第一加权有限状态转换机,包括:
计算所述目标文本的词语个数;
根据所述词语个数构造多个的状态节点;
分别构造相邻两个状态节点之间的边;
根据所述目标文本和预设标点符号集在构造的边上分别添加相应的输入符号、输出符号和权重,获得相应的第一加权有限状态转换机。
在其中一个实施例中,所述词语个数为N;所述目标文本中第n个词语的序号表示为n,其中n的取值范围为1至N;所述根据所述词语个数构造多个的状态节点,包括:
构造起始状态节点,所述起始状态节点为第0个状态节点;
构造第2(n-1)+1个状态节点和第2n个状态节点;
所述分别构造相邻两个状态节点之间的边,包括:
构造所述第2(n-1)个状态节点到所述第2(n-1)+1个状态节点之间的第一状态边;所述第2(n-1)个状态节点包括所述起始状态节点和所述第2n个状态节点;
对应于预设标点符号集中的每个标点符号,分别构造所述第2(n-1)+1个状态节点到所述第2n个状态节点之间的第二状态边;
构造所述第2(n-1)+1个状态节点到所述第2n个状态节点间的第三状态边;
所述根据所述目标文本和预设标点符号集在构造的边上分别添加相应的输入符号、输出符号和权重,包括:
在所述第2(n-1)个状态节点到所述第2(n-1)+1个状态节点之间的第一状态边上,添加第n个词语分别作为输入符号和输出符号,并添加权重为0;
在每个所述第2(n-1)+1个状态节点到所述第2n个状态节点之间的第二状态边上,添加对应的预设标点符号集中的标点符号分别作为输入符号和输出符号,并添加权重为0;
在所述第2(n-1)+1个状态节点到所述第2n个状态节点间的第三状态边上,添加无值标记分别作为输入符号和输出符号,并添加权重为0。
在其中一个实施例中,所述方法还包括:
获取带标点符号的文本样本;
对所述文本样本进行分词;
根据分词后的文本样本进行模型训练,获得相应的语言模型。
在其中一个实施例中,所述获取待添加标点符号的目标文本包括:
获取语音信息;
从获取到的语音信息中识别出相应的语音内容;
对识别出的语音内容进行分词;
将分词后的语音内容作为待添加标点符号的目标文本。
一种标点符号添加装置,所述装置包括:
目标文本获取模块,用于获取待添加标点符号的目标文本;
构造模块,用于根据所述目标文本和预设标点符号集构造第一加权有限状态转换机;
转换模块,用于将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机;
合并模块,用于对所述第一加权有限状态机和所述第二加权有限状态转换机进行合并;
搜索模块,用于对合并获得的第三加权有限状态转换机中进行最优路径搜索,获得带标点符号的目标文本。
一种计算机设备,包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待添加标点符号的目标文本;
根据所述目标文本和预设标点符号集构造第一加权有限状态转换机;
将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机;
对所述第一加权有限状态机和所述第二加权有限状态转换机进行合并;
对合并获得的第三加权有限状态转换机中进行最优路径搜索,获得带标点符号的目标文本。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待添加标点符号的目标文本;
根据所述目标文本和预设标点符号集构造第一加权有限状态转换机;
将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机;
对所述第一加权有限状态机和所述第二加权有限状态转换机进行合并;
对合并获得的第三加权有限状态转换机中进行最优路径搜索,获得带标点符号的目标文本。
上述标点符号添加方法、装置、计算机设备和计算机可读存储介质,根据待添加标点符号的目标文本和预设标点符号集对应构造第一加权有限状态转换机,将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机,并通过对第一加权有限状态转换机和第二加权有限状态转换机进行合并,以获得目标文本中可能添加的标点符号。进一步地,通过在合并获得的第三加权有限状态转换机中搜索最优路径,根据搜索出的最优路径即可对应确定目标文本中添加的标点符号,从而获得待标点符号的目标文本,提高了对应添加的标点符号的准确性。
附图说明
图1为一个实施例中标点符号添加方法的应用环境图;
图2为一个实施例中标点符号添加方法的流程示意图;
图3为一个实施例中加权有限状态转换机的结构示意图;
图4为一个实施例中已训练的语言模型;
图5为另一个实施例中加权有限状态转换机的结构示意图;
图6为图3和图5所示的加权有限状态转换机合并获得的加权有限状态转换机的结构示意图;
图7为一个实施例中第一加权有限状态转换机的构造方法的流程示意图;
图8为一个实施例中根据图7所示的方法构造出的第一加权有限状态转换机的结构示意图;
图9为一个实施例中根据已训练的语言模型转换获得的第二加权有限状态转换机的结构示意图;
图10为由图8所示的第一加权有限状态转换机和图9所示的第二加权有限状态转换机合并获得的第三加权有限状态转换机的结构示意图;
图11为一个具体的实施例中标点符号添加方法的流程示意图;
图12为一个实施例中标点符号添加装置的结构框图;
图13为另一个实施例中标点符号添加装置的结构框图;
图14为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的标点符号添加方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。终端102可用于检测语音信息,根据检测到的语音信息获得待添加标点符号的目标文本,并将目标文本发送至服务器104,服务器104可用于通过下述标点符号添加方法对接收到的目标文本添加标点符号。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种标点符号添加方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202,获取待添加标点符号的目标文本。
其中,目标文本是不带标点符号的文本。目标文本是由文字序列按照排列顺序构成的文本。目标文本是对不带标点符号的连续文本进行分词处理后获得的文本。目标文本可以是从语音信息中识别出的不带标点符号的文本,也可以是通过其他途径获取的不带标点符号的文本。目标文本具体可以是通过语音识别技术从语音信息中识别出语音内容,并对识别出的语音内容进行分词后获得的文本。
举例说明,从语音信息中识别出的语音内容为“您好北京路怎么走”,对该语音内容进行分词处理后获得的文本为“您好北京路怎么走”。可以看出,识别出的语音内容为不带标点符号的文本,不便于理解,且容易产生歧义,对语音内容进行分词后获得的文本为待添加标点符号的目标文本,通过下述标点符号添加方法对应确定目标文本中相邻两个词语间所需添加的标点符号,即可获得便于理解的带标点符号的目标文本。
S204,根据目标文本和预设标点符号集构造第一加权有限状态转换机。
其中,预设标点符号集是由预先设定的多个标点符号组成的集合。预设标点符号集可以是所有标点符号的集合,也可以是指定的多个标点符号的集合。预设标点符号集中的标点符号包括“,”“。”“?”“!”等。
加权有限状态转换机(Weight Finite-State Transducer,WFST)是应用于语音识别解码器的解码框架。加权有限状态机在任意时刻都处于有限状态集合中的某一状态,当获得一个输入符号时,将从当前状态转换到另一个状态,或者仍然保持当前状态。加权有限状态机中包含多个的状态节点,状态节点之间的有向加权边,以及有向加权边上的输入符号、输出符号和权重。
其中,状态节点表示加权有限状态机中的一个状态,有向加权边以及相应的输入符号、输出符号和权重表示获得输入符号时状态的变化。加权有限状态机中包含两个特殊的状态,分别为起始状态和结束状态,起始状态用零号状态节点表示,结束状态用最后一个状态节点表示。加权有限状态机中包括一个起始状态,通常可以包括多个结束状态,结束状态可包含有相应的权重。加权有限状态机中的所有有向加权边上,输入符号的集合构成输入符号集,输出符号的集合构成输出符号集。
举例说明,图3为一个加权有限状态机,包含4个状态节点,对应的标号分别为0至3。其中,标号0对应零号状态节点,表示起始状态,标号3表示结束状态,状态对应的状态节点也可用其他的标号对应表示。图中标号0到1之间的有向边为对应的有向加权边,相应的“a:b/0.1”表示该有向加权边上的输入符号为a,输出符号为b,权重为0.1。图示加权有限状态机对应的输入符号集为{a,b},输出符号集为{a,b}。
具体地,服务器获取待添加标点符号的目标文本后,从本地查询预设标点符号集,根据获取到的目标文本和查询到的预设标点符号集,按照预设构造方式构造相应的第一加权有限状态机。其中,第一加权有限状态机用于区分通过其他方式获得的加权有限状态机。
S206,将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机。
其中,文本样本是带标点符号的文本。文本样本是用于训练语言模型的训练文本样本。文本样本是由文字序列和标点符号按照排列顺序构成的文本。文本样本可以从网络或电子书上获取,也可以通过检测实时输入获得。从网络或电子书上获取的文本可以通过服务器在网络上自动爬取,也可以通过终端在网络上自动爬取并发送至服务器。通过检测实时输入获得的文本可以是用户自定义并通过终端实时输入的文本。
举例说明,带标点符号的文本可以是“您好!北京路怎么走?”。其中,用于训练语言模型的文本样本可以是由足够多个带标点符号的文本构成,也可以是由足够长且带标点符号的文字序列构成。
语言模型是通过选择文本样本和建模工具包进行训练构建的虚拟模型。语言模型是用于计算一个语句的出现概率的概率模型。语言模型可以有多种不同的格式,比如说ARPA格式(存储格式),ARPA格式的语言模型包含模型文件头和模型文件体两部分。如图4所示,提供了一个根据带标点符号的文本样本训练获得的ARPA格式的语言模型。图示语言模型中包含了语言模型头402和语言模型体404。
具体地,服务器获取用于训练语言模型的文本样本,根据获取到的文本样本和选定的建模工具包进行模型训练,训练完成后获得相应的语言模型,将已训练完成的语言模型按预设的转换方式转换为相应的第二加权有限状态转换机。
S208,对第一加权有限状态机和第二加权有限状态转换机进行合并。
其中,合并用于将多个加权有限状态机合并为一个加权有限状态机。合并是将前一个加权有限状态机机的输出符号与后一个加权有限状态机机的输入符号做合并,生成由前一个加权有限状态机机的输入符号到后一个加权有限状态机机的输出符号的加权有限状态机。加权有限状态机的合并操作与合并的顺序有关,合并获得的加权有限状态机的标号为对应合并的两个加权有限状态机各自的标号构成的数据对,合并获得的加权有限状态机的起始状态和结束状态,分别是由对应合并的两个加权有限状态机各自的起始状态和结束状态构成的数据对。
具体地,加权有限状态机简称为WFST,对应合并的两个WFST分别记为R和F,合并操作记为*,R和F合并获得的WFST记为R*F。其中,R*F不等于F*R,R*F的标号为R的标号和F的标号构成的数据对,R*F的起始状态是由R和F各自的起始状态构成的数据对,R*F的结束状态是由R和F各自的结束状态构成的数据对。
若r为R中的一个状态,f为F中的一个状态,(r,f)则可能为R*F中的一个状态。若R中r到r1的有向加权边记为tr,tr上的输入符号a,输出符号为b,权重为x,若F中f到f1的有向加权边记为tf,tf上的输入符号b,输出符号位c,权重为y,则由R和F合并获得的R*F中对应包含的有向加权边上的输入符号为a,输出符号为c,权重为xy(或x+y)。其中,若权重x和y均为概率,则合并后的权重为xy,若权重x和y均为概率的对数值,则合并后的权重为x+y。
举例说明,图5为另一个加权有限状态机,根据上述合并原理对图3和图5所示的两个加权有限状态机进行合并操作,获得的加权有限状态机如图6所示。
S210,对合并获得的第三加权有限状态转换机中进行最优路径搜索,获得带标点符号的目标文本。
其中,最优路径是从起始状态到结束状态之间的各个有向加权边上的权重和(或权重积)最小的路径。最优路径搜索是从第三加权有限状态转换机中的多条路径中搜索权重和(或权重积)最小的路径。
具体地,服务器对第一加权有限状态机和第二加权有限状态转换机进行合并操作获得的第三加权有限状态转换机中,从起始状态到结束状态之间包含有至少一条的连接路径,每条连接路径的权重等于构成该连接路径的各个有向加权边上的权重的求和(或乘积)。当第三加权有限状态转换机中从起始状态到结束状态之间的连接路径多于一条时,服务器分别计算每条连接路径的权重和(或权重积),将权重和(或权重积)最小的连接路径作为搜索出的最优路径。
服务器根据搜索出的最优路径确定待添加的标点符号,根据确定的标点符号和目标文本即可获得带标点符号的目标文本。具体地,服务器搜索出最优路径后,根据构成最优路径的各个有向加权边,以及各个有向加权边上的输入符号(或输出符号)确定待添加的标点符号以及对应添加标点符号的位置,删除表示无输入符号和无输出符号的无值标记以及空格,获得带标点符号的目标文本。
上述标点符号添加方法,根据待添加标点符号的目标文本和预设标点符号集对应构造第一加权有限状态转换机,将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机,并通过对第一加权有限状态转换机和第二加权有限状态转换机进行合并,以获得目标文本中可能添加的标点符号。进一步地,通过在合并获得的第三加权有限状态转换机中搜索最优路径,根据搜索出的最优路径即可对应确定目标文本中添加的标点符号,从而获得待标点符号的目标文本,提高了对应添加的标点符号的准确性。
在一个实施例中,上述标点符号添加方法中,步骤S204包括:计算目标文本的词语个数;根据词语个数构造多个的状态节点;分别构造相邻两个状态节点之间的边;根据目标文本和预设标点符号集在构造的边上分别添加相应的输入符号、输出符号和权重,获得相应的第一加权有限状态转换机。
其中,词语个数是构成目标文本的词语的总个数。词语个数是目标文本中包含的词语的个数,该目标文本由不带标点符号的连续文本进行分词处理获得。状态节点表示加权有限状态机中的一个状态,相邻两个状态节点之间的边为有向加权边,表示状态的变化方向,有向加权边上的输入符号、输出符号和权重表示状态的变化。
具体地,服务器获得待添加标点符号的目标文本后,根据分词结果计算目标文本的词语个数,根据计算的词语个数构造多个的状态节点,构造的多个的状态节点按照构造的顺序组合成相应的状态节点序列,每个状态节点在状态节点序列中与各自的序号分别对应。对于构造出的状态节点序列,分别构造相邻两个状态节点之间的有向加权边,有向加权边的方向为由序号在前的状态节点指向序号在后的状态节点。服务器根据获取的目标文本和预设标点符号集,分别在构造出的各条有向加权边上添加相应的输入符号、输出符号和权重。由根据目标文本构造出的状态节点序列和对应构造的有向加权边,以及各条有向加权边上对应添加的输入符号、输出符号和权重对应确定构造出的第一加权有限状态转换机。
上述实施例中,根据待添加标点符号的目标文本和预设标点符号集,对应构造状态节点序列和各个状态节点之间的边,以及对应确定边上添加的输入符号、输出符号和权重,从而确定对应构造的第一加权有限状态转换机,提高了构造出的第一加权有限状态转换机的准确性,从而提高了对于目标文本的添加的标点符号的准确性。
在一个实施例中,上述标点符号添加方法中,词语个数为N;目标文本中第n个词语的序号表示为n,其中n的取值范围为1至N;根据词语个数构造多个的状态节点,包括:构造起始状态节点,起始状态节点为第0个状态节点;构造第2(n-1)+1个状态节点和第2n个状态节点;分别构造相邻两个状态节点之间的边,包括:构造第2(n-1)个状态节点到第2(n-1)+1个状态节点之间的第一状态边;第2(n-1)个状态节点包括起始状态节点和第2n个状态节点;对应于预设标点符号集中的每个标点符号,分别构造第2(n-1)+1个状态节点到第2n个状态节点之间的第二状态边;构造第2(n-1)+1个状态节点到第2n个状态节点间的第三状态边;
进一步地,根据目标文本和预设标点符号集在构造的边上分别添加相应的输入符号、输出符号和权重,包括:在第2(n-1)个状态节点到第2(n-1)+1个状态节点之间的第一状态边上,添加第n个词语分别作为输入符号和输出符号,并添加权重为0;在每个第2(n-1)+1个状态节点到第2n个状态节点之间的第二状态边上,添加对应的预设标点符号集中的标点符号分别作为输入符号和输出符号,并添加权重为0;在第2(n-1)+1个状态节点到第2n个状态节点间的第三状态边上,添加无值标记分别作为输入符号和输出符号,并添加权重为0。
其中,目标文本可以是由多个词语构成的词语序列,每个词语在词语序列中分别与各自的序号对应。序号是词语在词语序列中的位置。换句话说序号是构成目标文本的词语在目标文本中的位置。起始状态节点是加权有限状态转换机中表示起始状态的零号状态节点。
状态边是在相邻两个状态节点间构造的有向加权边。第一状态边、第二状态边和第三状态边均为相邻两个状态节点之间的有向加权边,第一状态边、第二状态边和第三状态边之间的区别在于相应状态边上对应添加的输入符号和输出符号的依据不同。具体地,第一状态边上对应添加的输入符号和输出符号均为目标文本中的某个词语,第一状态边上对应添加的词语由该第一状态边两端连接的状态节点确定。第二状态边上对应添加的输入符号和输出符号均预设标点符号集中的某个标点符号。第三状态边上对应添加的输入符号和输出符号均表示无输入和无输出的无值标记。
服务器构造第2(n-1)+1个状态节点到第2n个状态节点之间的第二状态边时,对于预设标点符号集中的每个标点符号,在第2(n-1)+1个状态节点和第2n个状态节点之间分别构造相应的第二状态边。换句话说,预设标点符号集中包含特定数量的标点符号,对应的在第2(n-1)+1个状态节点和第2n个状态节点之间分别构造特定数量的第二状态边,构造的特定数量的第二状态边分别与预设标点符号集中的每个标点符号对应,且将对应的标点符号分别添加至相应的第二状态边上,作为相应第二状态边上的输入符号和输出符号。
如图7所示,在一个实施例中,提供了一种第一加权有限状态转换机的构造方法,对于目标文本中的每个词语,服务器可以分别执行构造相应的状态节点和相邻状态节点之间的有向加权边,以及在构造的有向加权边对应添加相应的输入符号、输出符号和权重。该方法的具体步骤如下:
S702,服务器构造起始状态节点,起始状态节点为第0个状态节点,始状态节点对应表示第一加权有限状态转换机的起始状态。
S704,对于目标文本中的每个词语分别执行步骤S7041至S7045,即对于目标文本循环执行步骤S7041至S7045,直至对应于目标文本中的每个词语均执行完相应的步骤。其中,目标文本中的词语个数为N,第n个词语的序号表示为n,n的取值为1至N。
S7041,构造第2(n-1)+1个状态节点。
S7042,构造第2(n-1)个状态节点到所述第2(n-1)+1个状态节点之间的第一状态边,该第一状态边上添加的输入符号和输出符号均为第n个词语,权重为0。
S7043,构造第2n个状态节点。
S7044,对于预设标点符号集中的每个标点符号,分别对应构造第2(n-1)+1个状态节点到第2n个状态节点之间的第二状态边,该第二状态边上添加的输入符号和输出符号均为对应的标点符号,权重为0。
S7045,构造第2(n-1)+1个状态节点到第2n个状态节点之间的第三状态边,该第三状态边上添加的输入符号和输出符号均为表示无输入和无输出的无值标记,权重为0。
S706,将最后一个状态节点(即第2n个状态节点)标记为第一加权有限状态转换机的结束状态。
在一个实施例中,服务器在构造的第一状态边、第二状态边和第三状态边上分别添加的权重均为1。
举例说明,服务器获得的目标文本为“您好北京路怎么走”。基于上述构造第一加权有限状态转换机的方法,根据该目标文本构造出的第一加权有限状态转换机如图8所示。其中,图中第三状态边上的表示无输入和无输出的无值标记可用<eps>表示,假设标点符号集中包含的标点符号为“,”“?”“!”,由于输入符号和输出符号相同,示意图中第一状态边、第二状态边和第三状态边上的只标注输入符号(或输出符号),省略权重。
上述实施例中,首先构造表示第一加权有限状态转换机的起始状态的起始状态节点,并根据目标文本中包含的词语个数对应构造奇数项状态节点和偶数项状态节点,且构造的奇数项状态节点和偶数项状态节点的个数均等于词语个数,再在构造的相邻状态节点间构造相应的有向加权边,根据目标文本和预设标点符号集在构造的有向加权边上分别添加相应的输入符号、输出符号和权重。通过上述方式构造的第一加权有限状态转换机的准确性高,从而提高了通过合并方式获得的第三加权有限状态转换机的准确性,进而提高了添加的标点符号的准确性。
在一个实施例中,上述标点符号添加方法还包括:获取带标点符号的文本样本;对文本样本进行分词;根据分词后的文本样本进行模型训练,获得相应的语言模型。
在一个实施例中,服务器通过网络从网页或电子书中获取带标点符号的文本样本,获取的文本样本中包含足够多的带标点符号的文字序列。服务器也可以从本地获取带标点符号的文本样本。
通过上述方法对应获得的语言模型如图4所示,由该语言模型转换获得的第二加权有限状态转换机如图9所示。由图8所示的第一加权有限状态转换机和图9所示的第二加权有限状态转换机进行合并,获得的第三加权有限状态转换机如图10所示。图10中,第三加权有限状态转换机的各条有向加权边上只标示输入符号(或输出符号)和相应的权重。
上述实施例中,服务器通过对获取的文本样本进行分词,并根据分词后的文本样本进行模型训练,以获得相应的语言模型,基于该训练完成的语言模型对目标文本添加相应的标点符号,提高了添加的标点符号的准确性。
在一个实施例中,步骤S202包括:获取语音信息;从获取到的语音信息中识别出相应的语音内容;对识别出的语音内容进行分词;将分词后的语音内容作为待添加标点符号的目标文本。
其中,语音信息是以语音消息的形式传递的信息。语音信息可以是用户即时发起的语音消息,也可以是从本地获取的预存储的语音消息,还可以是从网络上下载的语音消息。语音内容是通过语音的形式记录或传输的数据。语音内容是语音信息中包含的数据。语音内容具体可以是语音信息中携带特定含义的数据。
在一个实施例中,服务器将获取到的语音信息输入语音识别系统,通过语音识别系统从语音信息中识别出相应的语音内容,对识别出的语音内容进行分词,并对应输出分词后的语音内容。服务器将语音识别系统对应输出的分词后的语音内容作为待添加标点符号的目标文本。
在一个实施例中,由终端将获取到的语音信息输入语音识别系统,由语音识别系统对接收到的语音信息进行上述处理,对应获得分词后的语音内容,再由服务器接收语音识别系统输出的分词后的语音内容,并将接收到的语音内容作为待添加标点符号的目标文本。
在一个实施例中,上述各个实施例中标点符号添加方法的各个步骤也可以集成在语音识别系统中,由部署在服务器上的语音识别系统执行,通过该种方式,语音识别系统中根据接收到的语音信息对应输出的语音内容是带标点符号的文本。
上述实施例中,服务器从获取到的语音信息识别出相应的语音内容,并对识别出的语音内容进行分词,将分词后的语音内容作为待添加标点符号的目标文本,再对获取到的目标文本对应添加相应的标点符号,有效地实现了对从语音信息中识别出的语音内容的标点符号的添加。
如图11所示,提供了一种标点符号添加方法,该方法的具体步骤包括:
S1102,获取语音信息。
S1104,从获取到的语音信息中识别出相应的语音内容。
S1106,对识别出的语音内容进行分词。
S1108,将分词后的语音内容作为待添加标点符号的目标文本。
S1110,计算目标文本的词语个数。
S1112,根据词语个数构造多个的状态节点。
S1114,分别构造相邻两个状态节点之间的边。
S1116,根据目标文本和预设标点符号集在构造的边上分别添加相应的输入符号、输出符号和权重,获得相应的第一加权有限状态转换机。
S1118,获取带标点符号的文本样本。
S1120,对所述文本样本进行分词。
S1122,根据分词后的文本样本进行模型训练,获得相应的语言模型。
S1124,将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机。
S1126,对第一加权有限状态机和第二加权有限状态转换机进行合并。
S1128,对合并获得的第三加权有限状态转换机中进行最优路径搜索,获得带标点符号的目标文本。
上述实施例中,对从语音信息中识别出的语音内容进行分词,获得待添加标点符号的目标文本,根据目标文本和预设标点符号集构造相应的第一加权有限状态机。对获取的文本样本也进行分词,根据分词后的文本样本进行训练获得相应的语言模型,并将该语言模型转换为相应的第二加权有限状态转换机。由第一加权有限状态转换机和第二加权有限状态转换机合并获得相应的第三加权有限状态转换机,通过搜索第三加权有限状态转换机即可确定对应添加的标点符号,从而获得带标点符号的目标文本,提高了添加的标点符号的准确性。
上述标点符号添加方法可以作为独立的处理系统,为待添加标点符号的目标文本添加相应的标点符号,也可以与语音识别系统结合起来,使得语音识别系统直接输出带标点符号的文本。
应该理解的是,虽然上述各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述各实施例对应的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图12所示,提供了一种标点符号添加装置1200,包括:目标文本获取模块1201、构造模块1202、转换模块1203、合并模块1204和搜索模块1205,其中:
目标文本获取模块1201,用于获取待添加标点符号的目标文本。
构造模块1202,用于根据目标文本和预设标点符号集构造第一加权有限状态转换机。
转换模块1203,用于将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机。
合并模块1204,用于对第一加权有限状态机和第二加权有限状态转换机进行合并。
搜索模块1205,用于对合并获得的第三加权有限状态转换机中进行最优路径搜索,获得带标点符号的目标文本。
上述标点符号添加装置,根据待添加标点符号的目标文本和预设标点符号集对应构造第一加权有限状态转换机,将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机,并通过对第一加权有限状态转换机和第二加权有限状态转换机进行合并,以获得目标文本中可能添加的标点符号。进一步地,通过在合并获得的第三加权有限状态转换机中搜索最优路径,根据搜索出的最优路径即可对应确定目标文本中添加的标点符号,从而获得待标点符号的目标文本,提高了对应添加的标点符号的准确性。
在一个实施例中,构造模块1202,还用于计算目标文本的词语个数;根据词语个数构造多个的状态节点;分别构造相邻两个状态节点之间的边;根据目标文本和预设标点符号集在构造的边上分别添加相应的输入符号、输出符号和权重,获得相应的第一加权有限状态转换机。
上述实施例中,根据待添加标点符号的目标文本和预设标点符号集,对应构造状态节点序列和各个状态节点之间的边,以及对应确定边上添加的输入符号、输出符号和权重,从而确定对应构造的第一加权有限状态转换机,提高了构造出的第一加权有限状态转换机的准确性,从而提高了对于目标文本的添加的标点符号的准确性。
在一个实施例中,词语个数为N;目标文本中第n个词语的序号表示为n,其中n的取值范围为1至N;构造模块1202,还用于构造起始状态节点,起始状态节点为第0个状态节点;构造第2(n-1)+1个状态节点和第2n个状态节点;构造第2(n-1)个状态节点到第2(n-1)+1个状态节点之间的第一状态边;第2(n-1)个状态节点包括起始状态节点和第2n个状态节点;对应于预设标点符号集中的每个标点符号,分别构造第2(n-1)+1个状态节点到第2n个状态节点之间的第二状态边;构造第2(n-1)+1个状态节点到第2n个状态节点间的第三状态边;
构造模块1202,还用于在第2(n-1)个状态节点到第2(n-1)+1个状态节点之间的第一状态边上,添加第n个词语分别作为输入符号和输出符号,并添加权重为0;在每个第2(n-1)+1个状态节点到第2n个状态节点之间的第二状态边上,添加对应的预设标点符号集中的标点符号分别作为输入符号和输出符号,并添加权重为0;在第2(n-1)+1个状态节点到第2n个状态节点间的第三状态边上,添加无值标记分别作为输入符号和输出符号,并添加权重为0。
上述实施例中,首先构造表示第一加权有限状态转换机的起始状态的起始状态节点,并根据目标文本中包含的词语个数对应构造奇数项状态节点和偶数项状态节点,且构造的奇数项状态节点和偶数项状态节点的个数均等于词语个数,再在构造的相邻状态节点间构造相应的有向加权边,根据目标文本和预设标点符号集在构造的有向加权边上分别添加相应的输入符号、输出符号和权重。通过上述方式构造的第一加权有限状态转换机的准确性高,从而提高了通过合并方式获得的第三加权有限状态转换机的准确性,进而提高了添加的标点符号的准确性。
在一个实施例中,如图13所示,标点符号添加装置1200还包括:文本样本获取模块1206、分词模块1207和训练模块1208,其中:
文本样本获取模块1206,用于获取带标点符号的文本样本;
分词模块1207,用于对文本样本进行分词;
训练模块1208,用于根据分词后的文本样本进行模型训练,获得相应的语言模型。
上述实施例中,服务器通过对获取的文本样本进行分词,并根据分词后的文本样本进行模型训练,以获得相应的语言模型,基于该训练完成的语言模型对目标文本添加相应的标点符号,提高了添加的标点符号的准确性。
在一个实施例中,目标文本获取模块1201还用于获取语音信息;从获取到的语音信息中识别出相应的语音内容;对识别出的语音内容进行分词;将分词后的语音内容作为待添加标点符号的目标文本。
上述实施例中,服务器从获取到的语音信息识别出相应的语音内容,并对识别出的语音内容进行分词,将分词后的语音内容作为待添加标点符号的目标文本,再对获取到的目标文本对应添加相应的标点符号,有效地实现了对从语音信息中识别出的语音内容的标点符号的添加。
关于标点符号添加装置的具体限定可以参见上文中对于标点符号添加方法的限定,在此不再赘述。上述标点符号添加装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图14所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储根据训练完成的语言模型转换获得的第二加权有限状态转换机。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种标点符号添加方法。
本领域技术人员可以理解,图14中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取待添加标点符号的目标文本;根据目标文本和预设标点符号集构造第一加权有限状态转换机;将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机;对第一加权有限状态机和第二加权有限状态转换机进行合并;对合并获得的第三加权有限状态转换机中进行最优路径搜索,获得带标点符号的目标文本。
在一个实施例中,根据目标文本和预设标点符号集构造第一加权有限状态转换机,包括:计算目标文本的词语个数;根据词语个数构造多个的状态节点;分别构造相邻两个状态节点之间的边;根据目标文本和预设标点符号集在构造的边上分别添加相应的输入符号、输出符号和权重,获得相应的第一加权有限状态转换机。
在一个实施例中,词语个数为N;目标文本中第n个词语的序号表示为n,其中n的取值范围为1至N;根据词语个数构造多个的状态节点,包括:构造起始状态节点,起始状态节点为第0个状态节点;构造第2(n-1)+1个状态节点和第2n个状态节点;分别构造相邻两个状态节点之间的边,包括:构造第2(n-1)个状态节点到第2(n-1)+1个状态节点之间的第一状态边;第2(n-1)个状态节点包括起始状态节点和第2n个状态节点;对应于预设标点符号集中的每个标点符号,分别构造第2(n-1)+1个状态节点到第2n个状态节点之间的第二状态边;构造第2(n-1)+1个状态节点到第2n个状态节点间的第三状态边;
进一步地,根据目标文本和预设标点符号集在构造的边上分别添加相应的输入符号、输出符号和权重,包括:在第2(n-1)个状态节点到第2(n-1)+1个状态节点之间的第一状态边上,添加第n个词语分别作为输入符号和输出符号,并添加权重为0;在每个第2(n-1)+1个状态节点到第2n个状态节点之间的第二状态边上,添加对应的预设标点符号集中的标点符号分别作为输入符号和输出符号,并添加权重为0;在第2(n-1)+1个状态节点到第2n个状态节点间的第三状态边上,添加无值标记分别作为输入符号和输出符号,并添加权重为0。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取带标点符号的文本样本;对文本样本进行分词;根据分词后的文本样本进行模型训练,获得相应的语言模型。
在一个实施例中,获取待添加标点符号的目标文本包括:获取语音信息;从获取到的语音信息中识别出相应的语音内容;对识别出的语音内容进行分词;将分词后的语音内容作为待添加标点符号的目标文本。
上述计算机设备,根据待添加标点符号的目标文本和预设标点符号集对应构造第一加权有限状态转换机,将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机,并通过对第一加权有限状态转换机和第二加权有限状态转换机进行合并,以获得目标文本中可能添加的标点符号。进一步地,通过在合并获得的第三加权有限状态转换机中搜索最优路径,根据搜索出的最优路径即可对应确定目标文本中添加的标点符号,从而获得待标点符号的目标文本,提高了对应添加的标点符号的准确性。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待添加标点符号的目标文本;根据目标文本和预设标点符号集构造第一加权有限状态转换机;将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机;对第一加权有限状态机和第二加权有限状态转换机进行合并;对合并获得的第三加权有限状态转换机中进行最优路径搜索,获得带标点符号的目标文本。
在一个实施例中,根据目标文本和预设标点符号集构造第一加权有限状态转换机,包括:计算目标文本的词语个数;根据词语个数构造多个的状态节点;分别构造相邻两个状态节点之间的边;根据目标文本和预设标点符号集在构造的边上分别添加相应的输入符号、输出符号和权重,获得相应的第一加权有限状态转换机。
在一个实施例中,词语个数为N;目标文本中第n个词语的序号表示为n,其中n的取值范围为1至N;根据词语个数构造多个的状态节点,包括:构造起始状态节点,起始状态节点为第0个状态节点;构造第2(n-1)+1个状态节点和第2n个状态节点;分别构造相邻两个状态节点之间的边,包括:构造第2(n-1)个状态节点到第2(n-1)+1个状态节点之间的第一状态边;第2(n-1)个状态节点包括起始状态节点和第2n个状态节点;对应于预设标点符号集中的每个标点符号,分别构造第2(n-1)+1个状态节点到第2n个状态节点之间的第二状态边;构造第2(n-1)+1个状态节点到第2n个状态节点间的第三状态边;
进一步地,根据目标文本和预设标点符号集在构造的边上分别添加相应的输入符号、输出符号和权重,包括:在第2(n-1)个状态节点到第2(n-1)+1个状态节点之间的第一状态边上,添加第n个词语分别作为输入符号和输出符号,并添加权重为0;在每个第2(n-1)+1个状态节点到第2n个状态节点之间的第二状态边上,添加对应的预设标点符号集中的标点符号分别作为输入符号和输出符号,并添加权重为0;在第2(n-1)+1个状态节点到第2n个状态节点间的第三状态边上,添加无值标记分别作为输入符号和输出符号,并添加权重为0。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取带标点符号的文本样本;对文本样本进行分词;根据分词后的文本样本进行模型训练,获得相应的语言模型。
在一个实施例中,获取待添加标点符号的目标文本包括:获取语音信息;从获取到的语音信息中识别出相应的语音内容;对识别出的语音内容进行分词;将分词后的语音内容作为待添加标点符号的目标文本。
上述计算机可读存储介质,根据待添加标点符号的目标文本和预设标点符号集对应构造第一加权有限状态转换机,将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机,并通过对第一加权有限状态转换机和第二加权有限状态转换机进行合并,以获得目标文本中可能添加的标点符号。进一步地,通过在合并获得的第三加权有限状态转换机中搜索最优路径,根据搜索出的最优路径即可对应确定目标文本中添加的标点符号,从而获得待标点符号的目标文本,提高了对应添加的标点符号的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种标点符号添加方法,所述方法包括:
获取待添加标点符号的目标文本;
根据所述目标文本和预设标点符号集构造第一加权有限状态转换机;
将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机;
对所述第一加权有限状态机和所述第二加权有限状态转换机进行合并;
对合并获得的第三加权有限状态转换机中进行最优路径搜索,获得带标点符号的目标文本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本和预设标点符号集构造第一加权有限状态转换机,包括:
计算所述目标文本的词语个数;
根据所述词语个数构造多个的状态节点;
分别构造相邻两个状态节点之间的边;
根据所述目标文本和预设标点符号集在构造的边上分别添加相应的输入符号、输出符号和权重,获得相应的第一加权有限状态转换机。
3.根据权利要求2所述的方法,其特征在于,所述词语个数为N;所述目标文本中第n个词语的序号表示为n,其中n的取值范围为1至N;所述根据所述词语个数构造多个的状态节点,包括:
构造起始状态节点,所述起始状态节点为第0个状态节点;
构造第2(n-1)+1个状态节点和第2n个状态节点;
所述分别构造相邻两个状态节点之间的边,包括:
构造所述第2(n-1)个状态节点到所述第2(n-1)+1个状态节点之间的第一状态边;所述第2(n-1)个状态节点包括所述起始状态节点和所述第2n个状态节点;
对应于预设标点符号集中的每个标点符号,分别构造所述第2(n-1)+1个状态节点到所述第2n个状态节点之间的第二状态边;
构造所述第2(n-1)+1个状态节点到所述第2n个状态节点间的第三状态边;
所述根据所述目标文本和预设标点符号集在构造的边上分别添加相应的输入符号、输出符号和权重,包括:
在所述第2(n-1)个状态节点到所述第2(n-1)+1个状态节点之间的第一状态边上,添加第n个词语分别作为输入符号和输出符号,并添加权重为0;
在每个所述第2(n-1)+1个状态节点到所述第2n个状态节点之间的第二状态边上,添加对应的预设标点符号集中的标点符号分别作为输入符号和输出符号,并添加权重为0;
在所述第2(n-1)+1个状态节点到所述第2n个状态节点间的第三状态边上,添加无值标记分别作为输入符号和输出符号,并添加权重为0。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取带标点符号的文本样本;
对所述文本样本进行分词;
根据分词后的文本样本进行模型训练,获得相应的语言模型。
5.根据权利要求1至4中任意一项所述的方法,其特征在于,所述获取待添加标点符号的目标文本包括:
获取语音信息;
从获取到的语音信息中识别出相应的语音内容;
对识别出的语音内容进行分词;
将分词后的语音内容作为待添加标点符号的目标文本。
6.一种标点符号添加装置,其特征在于,所述装置包括:
目标文本获取模块,用于获取待添加标点符号的目标文本;
构造模块,用于根据所述目标文本和预设标点符号集构造第一加权有限状态转换机;
转换模块,用于将根据带标点符号的文本样本训练得到的语言模型转换为第二加权有限状态转换机;
合并模块,用于对所述第一加权有限状态机和所述第二加权有限状态转换机进行合并;
搜索模块,用于对合并获得的第三加权有限状态转换机中进行最优路径搜索,获得带标点符号的目标文本。
7.根据权利要求6所述的装置,其特征在于,所述构造模块,还用于计算所述目标文本的词语个数;根据所述词语个数构造多个的状态节点;分别构造相邻两个状态节点之间的边;根据所述目标文本和预设标点符号集在构造的边上分别添加相应的输入符号、输出符号和权重,获得相应的第一加权有限状态转换机。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:文本样本获取模块、分词模块和训练模块;
文本样本获取模块,用于获取带标点符号的文本样本;
分词模块,用于对所述文本样本进行分词;
训练模块,用于根据分词后的文本样本进行模型训练,获得相应的语言模型。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810191276.0A CN108597517B (zh) | 2018-03-08 | 2018-03-08 | 标点符号添加方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810191276.0A CN108597517B (zh) | 2018-03-08 | 2018-03-08 | 标点符号添加方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108597517A true CN108597517A (zh) | 2018-09-28 |
CN108597517B CN108597517B (zh) | 2020-06-05 |
Family
ID=63625919
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810191276.0A Active CN108597517B (zh) | 2018-03-08 | 2018-03-08 | 标点符号添加方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108597517B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410949A (zh) * | 2018-10-11 | 2019-03-01 | 厦门大学 | 基于加权有限状态转换器的文本内容添加标点方法 |
CN109887492A (zh) * | 2018-12-07 | 2019-06-14 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和电子设备 |
CN111261162A (zh) * | 2020-03-09 | 2020-06-09 | 北京达佳互联信息技术有限公司 | 语音识别方法、语音识别装置及存储介质 |
CN112307167A (zh) * | 2020-10-30 | 2021-02-02 | 广州华多网络科技有限公司 | 文本切句方法、装置、计算机设备和存储介质 |
CN112820280A (zh) * | 2020-12-30 | 2021-05-18 | 北京声智科技有限公司 | 规则语言模型的生成方法及装置 |
CN112837688A (zh) * | 2019-11-22 | 2021-05-25 | 阿里巴巴集团控股有限公司 | 语音转写方法、装置、相关系统及设备 |
CN113095062A (zh) * | 2021-04-12 | 2021-07-09 | 阿里巴巴新加坡控股有限公司 | 数据处理方法、装置、电子设备及计算机存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8327265B1 (en) * | 1999-04-09 | 2012-12-04 | Lucimedia Networks, Inc. | System and method for parsing a document |
US20130006615A1 (en) * | 2007-08-31 | 2013-01-03 | Research In Motion Limited | Mobile wireless communications device providing enhanced predictive word entry and related methods |
CN103971684A (zh) * | 2013-01-29 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法、系统及其语言模型建立方法、装置 |
CN103971686A (zh) * | 2013-01-30 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
CN105609107A (zh) * | 2015-12-23 | 2016-05-25 | 北京奇虎科技有限公司 | 一种基于语音识别的文本处理方法和装置 |
CN107291690A (zh) * | 2017-05-26 | 2017-10-24 | 北京搜狗科技发展有限公司 | 标点添加方法和装置、用于标点添加的装置 |
CN107767870A (zh) * | 2017-09-29 | 2018-03-06 | 百度在线网络技术(北京)有限公司 | 标点符号的添加方法、装置和计算机设备 |
-
2018
- 2018-03-08 CN CN201810191276.0A patent/CN108597517B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8327265B1 (en) * | 1999-04-09 | 2012-12-04 | Lucimedia Networks, Inc. | System and method for parsing a document |
US20130006615A1 (en) * | 2007-08-31 | 2013-01-03 | Research In Motion Limited | Mobile wireless communications device providing enhanced predictive word entry and related methods |
CN103971684A (zh) * | 2013-01-29 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种添加标点的方法、系统及其语言模型建立方法、装置 |
CN103971686A (zh) * | 2013-01-30 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
CN105609107A (zh) * | 2015-12-23 | 2016-05-25 | 北京奇虎科技有限公司 | 一种基于语音识别的文本处理方法和装置 |
CN107291690A (zh) * | 2017-05-26 | 2017-10-24 | 北京搜狗科技发展有限公司 | 标点添加方法和装置、用于标点添加的装置 |
CN107767870A (zh) * | 2017-09-29 | 2018-03-06 | 百度在线网络技术(北京)有限公司 | 标点符号的添加方法、装置和计算机设备 |
Non-Patent Citations (1)
Title |
---|
卢达威,宋柔: "基于最大熵模型的汉语标点句缺失话题自动识别初探", 《计算机工程与科学》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109410949A (zh) * | 2018-10-11 | 2019-03-01 | 厦门大学 | 基于加权有限状态转换器的文本内容添加标点方法 |
CN109410949B (zh) * | 2018-10-11 | 2021-11-16 | 厦门大学 | 基于加权有限状态转换器的文本内容添加标点方法 |
CN109887492A (zh) * | 2018-12-07 | 2019-06-14 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和电子设备 |
CN109887492B (zh) * | 2018-12-07 | 2021-02-12 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和电子设备 |
CN112837688A (zh) * | 2019-11-22 | 2021-05-25 | 阿里巴巴集团控股有限公司 | 语音转写方法、装置、相关系统及设备 |
WO2021098637A1 (zh) * | 2019-11-22 | 2021-05-27 | 阿里巴巴集团控股有限公司 | 语音转写方法、装置、相关系统及设备 |
CN112837688B (zh) * | 2019-11-22 | 2024-04-02 | 阿里巴巴集团控股有限公司 | 语音转写方法、装置、相关系统及设备 |
CN111261162A (zh) * | 2020-03-09 | 2020-06-09 | 北京达佳互联信息技术有限公司 | 语音识别方法、语音识别装置及存储介质 |
CN111261162B (zh) * | 2020-03-09 | 2023-04-18 | 北京达佳互联信息技术有限公司 | 语音识别方法、语音识别装置及存储介质 |
CN112307167A (zh) * | 2020-10-30 | 2021-02-02 | 广州华多网络科技有限公司 | 文本切句方法、装置、计算机设备和存储介质 |
CN112820280A (zh) * | 2020-12-30 | 2021-05-18 | 北京声智科技有限公司 | 规则语言模型的生成方法及装置 |
CN113095062A (zh) * | 2021-04-12 | 2021-07-09 | 阿里巴巴新加坡控股有限公司 | 数据处理方法、装置、电子设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108597517B (zh) | 2020-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108597517A (zh) | 标点符号添加方法、装置、计算机设备和存储介质 | |
US11610061B2 (en) | Modifying text according to a specified attribute | |
US10922488B1 (en) | Computing numeric representations of words in a high-dimensional space | |
US10726306B1 (en) | Dense captioning with joint interference and visual context | |
CN105068998B (zh) | 基于神经网络模型的翻译方法及装置 | |
CN110427467A (zh) | 问答处理方法、装置、计算机设备和存储介质 | |
EP3926531A1 (en) | Method and system for visio-linguistic understanding using contextual language model reasoners | |
US11636341B2 (en) | Processing sequential interaction data | |
CN109086303A (zh) | 基于机器阅读理解的智能对话方法、装置、终端 | |
CN108334492A (zh) | 文本分词、即时消息处理方法和装置 | |
KR102015235B1 (ko) | 경로조회 방법, 장치, 디바이스 및 비휘발성 컴퓨터 기억 매체 | |
CN110941951B (zh) | 文本相似度计算方法、装置、介质及电子设备 | |
CN110334179A (zh) | 问答处理方法、装置、计算机设备和存储介质 | |
CN109740158B (zh) | 一种文本语义解析方法及装置 | |
CN105512347A (zh) | 一种基于地理主题模型的信息处理方法 | |
CN106601254A (zh) | 信息输入方法和装置及计算设备 | |
CN105161095A (zh) | 语音识别语法树的构图方法及装置 | |
Prabha et al. | A deep learning approach for part-of-speech tagging in nepali language | |
CN107463619A (zh) | 搜索方法、搜索设备以及终端设备 | |
JP2020071839A (ja) | 探索装置、探索方法、探索プログラムおよび記録媒体 | |
CN113642569A (zh) | 非结构化数据文档处理方法及相关设备 | |
CN108319695A (zh) | 水电站故障数据处理方法、装置、计算机设备和存储介质 | |
JP7181693B2 (ja) | ニュース素材分類装置、プログラム及び学習モデル | |
US20240152702A1 (en) | Specific target-oriented social media tweet sentiment analysis method | |
CN114357164A (zh) | 情感-原因对抽取方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |