CN110473551A - 一种语音识别方法、装置、电子设备及存储介质 - Google Patents
一种语音识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110473551A CN110473551A CN201910854154.XA CN201910854154A CN110473551A CN 110473551 A CN110473551 A CN 110473551A CN 201910854154 A CN201910854154 A CN 201910854154A CN 110473551 A CN110473551 A CN 110473551A
- Authority
- CN
- China
- Prior art keywords
- formula
- segment
- grammar
- text
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000013519 translation Methods 0.000 claims abstract description 39
- 239000012634 fragment Substances 0.000 claims description 39
- 238000002372 labelling Methods 0.000 claims description 24
- 230000015654 memory Effects 0.000 claims description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 6
- 239000007787 solid Substances 0.000 claims description 5
- 238000001746 injection moulding Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 241001085205 Prenanthella exigua Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012806 monitoring device Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/193—Formal grammars, e.g. finite state automata, context free grammars or word networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种语音识别方法、装置、电子设备及存储介质,涉及语音识别技术领域。具体实现方案为:对输入的语音进行语音识别,得到初始文本数据;识别所述初始文本数据中的公式片段;对所述公式片段进行文法解析,得到所述公式片段对应的文法树;基于所述文法树得到所述公式片段对应的公式翻译结果;将所述初始文本数据中的所述公式片段替换为所述公式翻译结果,得到所述语音对应的语音识别结果。本申请通过对获取的公式片段进行文法解析,得到公式片段对应的文法树,进而根据文法树得到公式片段对应的公式翻译结果,可实现对公式各个部分相互关系充分理解,对公式进行更彻底、精准的改写归一,解决复杂公式的识别翻译。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及语音识别技术领域,具体涉及一种语音识别方法、装置、电子设备及存储介质。
背景技术
随着语音识别技术日渐成熟,语音这种输入形式已经得到非常广泛的普及应用,例如语音输入法,语音搜索。然而对于专业领域的查询语句query(如数学、物理等)的识别,由于充斥着大量公式,语音识别效果仍然不够理想,仅仅能识别出字面信息,无法理解结构化公式。
现有技术中对于包含公式的语音的识别方法主要有两种:
第一种是基于模板匹配的识别方法,即在将语音转化为初始文本后,将初始文本与模板进行匹配,当初始文本的某个片段与模板中的句型匹配,则按照针对该句型预先设置的转化规则将该片段转化为正确的公式表达。采用上述方法对于复杂公式不能够进行正确的理解和翻译,同时本方法需要大量的人工设置规则,不仅耗费人力,当规则数量大的时候,很容易产生冲突从而造成无法解析的后果。
第二种是端到端的识别方法,本方法将语音输入到神经网络模型中,模型输出转化后的文本,该文本中的公式片段是转化后的规范的数学表达。模型训练时使用的每条样本数据包括语音数据以及对应的包含数学规范公式的文本数据。本方法模型训练时需要采集大量样本,成本较高,并且对于语音与文本非同序的表达,其处理结果并不理想。
发明内容
本申请实施例提供了语音识别方法、装置、电子设备及存储介质,以达到便捷准确的识别用户语音中所包括的公式的目的。
第一方面,本申请实施例提供了一种语音识别方法,包括:
对输入的语音进行语音识别,得到初始文本数据;
识别所述初始文本数据中的公式片段;
对所述公式片段进行文法解析,得到所述公式片段对应的文法树;
基于所述文法树得到所述公式片段对应的公式翻译结果;
将所述初始文本数据中的所述公式片段替换为所述公式翻译结果,得到所述语音对应的语音识别结果。
上述申请中的一个实施例具有如下优点或有益效果:通过识别初始文本数据中的公式片段,并对公式片段进行文法解析,得到公式片段对应的文法树,从而根据文法树得到公式片段对应的公式翻译结果,可以理解公式各个部分相互关系,对公式进行更彻底、精准的改写归一,解决复杂公式的识别翻译,同时更方便扩展。
可选的,对所述公式片段进行文法解析,得到所述公式片段对应的文法树,包括:
获取预先针对公式场景设置的至少一条文法结构、文法节点、操作符和终结符;
基于所述文法结构、文法节点、操作符和终结符,使用文法解析模型对所述公式片段进行文法解析,得到所述公式片段对应的文法树。
可选的,所述文法解析模型为概率上下文无关文法PCFG模型或者基于词典的Lexical-PCFG模型。
上述申请中的一个实施例具有如下优点或有益效果:通过文法结构、文法节点、操作符和终结符,使用概率上下文无关文法PCFG模型或者基于词典的Lexical-PCFG模型对公式片段进行文法解析,可实现对复杂公式的解析,帮助理解复杂公式中各个部分相互关系。
可选的,基于所述文法结构、文法节点、操作符和终结符,使用文法解析模型对所述公式片段进行文法解析,得到所述公式片段对应的文法树,包括:
将所述公式片段作为当前文本片段,将当前文本片段与预先设置的文法结构进行匹配,根据该文法结构将当前文本片段划分为多个子文本片段;并对每个子文本片段递归向下解析得到子节点,每个子文本片段与一个子节点对应;
对于划分后的各子文本片段,若该子文本片段不是终结符和操作符,则将该子文本片段作为当前文本片段,将该子文本片段对应的子节点作为当前根节点,返回执行将当前文本片段与所述文法结构进行匹配的步骤,直至所述公式片段被解析完成。
上述申请中的一个实施例具有如下优点或有益效果:通过将公式片段与文法结构匹配的方式,将公式片段解析成文法树,可充分理解公式各部分之间的相互关系。
可选的,基于所述文法树得到所述公式片段对应的公式翻译结果,包括:
采用文法树解析算法,对所述文法树进行解析;
根据解析结果确定所述文法树中的各叶子节点的拼接顺序;
根据各叶子节点的拼接顺序对各叶子节点进行拼接,得到所述公式片段对应的公式翻译结果。
上述申请中的一个实施例具有如下优点或有益效果:基于各叶子节点的拼接顺序对各叶子节点进行拼接的方式,得到结构化的公式作为翻译结果,实现了对公式片段进行彻底精准的改写。
可选的,所述识别所述初始文本数据中的公式片段,包括:
获取所述初始文本数据对应的特征数据,将所述特征数据输入至预先训练出的序列标注模型,根据所述序列标注模型的输出结果确定所述初始文本数据中的公式片段。
上述申请中的一个实施例具有如下优点或有益效果:通过预先训练的序列标注模型,准确标注公式片段在文本中的位置,进而提升获取公式片段的准确性。
可选的,在通过序列标注模型识别所述初始文本数据中的公式片段之前,还包括:
获取多条样本数据;
基于所述多条样本数据对所述序列标注模型进行训练;
其中,每条样本数据包括:待识别的文本数据和所述文本数据对应的标签数据,所述标签数据用于表示所述文本数据中公式片段的位置。
上述申请中的一个实施例具有如下优点或有益效果:通过预先训练序列标注模型,可确保后续利用该模型准确快速的确定公式片段。
可选的,所述特征数据包括拼音特征数据、字特征数据、词特征数据、共现特征数据以及实体特征数据中的至少一个。
上述申请中的一个实施例具有如下优点或有益效果:通过提取多种不同的特征数据作为公序列标注模型的输入,保证根据输出结果确定公式片段的准确性。
第二方面,本申请实施例还提供了一种语音识别装置,包括:
语音识别模块,同于对输入的语音进行语音识别,得到初始文本数据;
公式片段识别模块,用于识别所述初始文本数据中的公式片段;
解析模块,用于对所述公式片段进行文法解析,得到所述公式片段对应的文法树;
翻译模块,用于基于所述文法树得到所述公式片段对应的公式翻译结果;
替换模块,用于将所述初始文本数据中的所述公式片段替换为所述公式翻译结果,得到所述语音对应的语音识别结果。
第三方面,本申请实施例还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任意实施例所述的语音识别方法。
第四方面,本本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请任意实施例所述的语音识别方法。
上述申请中的一个实施例具有如下优点或有益效果:通过识别初始文本数据中的公式片段,并对公式片段进行文法解析,得到公式片段对应的文法树,从而根据文法树得到公式片段对应的公式翻译结果,可以理解公式各个部分相互关系,对公式进行更彻底、精准的改写归一,解决复杂公式的识别翻译,同时更方便扩展。而且在通过预先训练的序列标注模型,准确标注公式片段在文本中的位置,进而提升获取公式片段的准确性。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1a是本申请实施例的一种语音识别方法的流程示意图;
图1b是本申请实施例中的文法树的示意图;
图2是本申请实施例的一种语音识别方法的流程示意图;
图3是本申请实施例的一种语音识别装置的结构示意图;
图4是用来实现本申请实施例的语音识别方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1a是本申请实施例的语音识别方法的流程示意图,本实施例可适用于识别用户输入的语音中包括复杂公式的情况。该方法可由一种语音识别装置来执行,该装置采用软件和/或硬件的方式实现,优选是配置于电子设备中,例如智能终端。如图1a所示,该方法具体包括如下:
S101、对输入的语音进行语音识别,得到初始文本数据。
本申请中,要识别用户查询语音中所包括的结构化公式,首先要将输入的语音进行识别,例如通过语音模型进行识别,得到语音对应的文字信息,也即是初始文本数据,其中初始文本数据包括对公式的文字描述。
S102、识别所述初始文本数据中的公式片段。
其中,公式片段也即是初始文本数据包括的对公式的文字描述。因此可示例性的通过上下文信息分析将初始文本数据中的公式片段抽取出来。例如,识别到的初始文本数据为“求椭圆a的平方分之x的平方+b的平方分之y的平方=1绕x轴旋转”,则可根据上下文得到对应的公式片段为“a的平方分之x的平方+b的平方分之y的平方=1”。
S103、对所述公式片段进行文法解析,得到所述公式片段对应的文法树。
通过S102得到的公式片段本质上是一种包含句法结构的语言,因此可以类比句法分析、编译原理,将其转化为形式化语言,使用少量文法即可解决复杂公式。而对所述公式片段进行文法解析,得到所述公式片段对应的文法树的操作可按照如下步骤进行:
S1.获取预先针对公式场景设置的至少一条文法结构、文法节点、操作符和终结符。
其中,公式场景至少包括数学公式或物理公式,不同的公式场景,其对应的文法结构、文法节点、操作符和终结符不同。而文法结构至少包括表示加减二元关系,乘除二元关系,分之关系等的文法。例如文法结构为:S->Slow op2 Slow,表示两个低优先级公式可以通过低优先级操作符连接为一个更大的公式;其中,S、Slow为文法节点,S表示根节点,Slow表示低优先级公式(例如加、减公式);op2表示加减操作符。在此需要说明的是每个公式场景都对应众多的文法结构、文法节点以及操作符,在此不一一列举。每个公式场景下设置终结符,例如letter->a/b/c/d等字母。
S2.基于所述文法结构、文法节点、操作符和终结符,使用文法解析模型对所述公式片段进行文法解析,得到所述公式片段对应的文法树。
其中,所述文法解析模型可选的为概率上下文无关文法PCFG模型或者基于词典的Lexical-PCFG模型。
具体解析过程如下:将所述公式片段作为当前文本片段,将当前文本片段与预先设置的文法结构进行匹配,根据该文法结构将当前文本片段划分为多个子文本片段;并对每个子文本片段递归向下解析得到子节点,即每个子文本片段与一个子节点对应;对于划分后的各子文本片段,若该子文本片段不是终结符和操作符,则将该子文本片段作为当前文本片段,将该子文本片段对应的子节点作为当前根节点,返回执行将当前文本片段与所述文法结构进行匹配的步骤,直至所述公式片段被解析完成。在此需要说明的是,通过对公式片段解析得到文法树过程,理解公式各个部分相互关系,便于对公式进行更彻底、精准的改写归一,解决复杂公式的识别翻译。
示例性的,以公式片段“a分之a的绝对值加b分之b的绝对值”为例,将该公式片段与加法关系的文法进行匹配得到a分之a的绝对值和b分之b的绝对值两个子文本片段,这两个子文本片段不是终结符和操作符,因此将这两个字文本片段分别与分之关系的文法结构匹配,每个子文本片段被分解为更小的文本片段,重复上述的解析步骤,解析出的文法树参见图1b。
S104、基于所述文法树得到所述公式片段对应的公式翻译结果。
可选的,采用文法树解析算法,对所述文法树进行解析,其中,所述文法树解析算法可选的为自上而下TOP-down的解析算法或者自下而上bottom-up的解析算法;根据解析结果确定所述文法树中的各叶子节点的拼接顺序;根据各叶子节点的拼接顺序对各叶子节点进行拼接,得到所述公式片段对应的公式翻译结果。示例性的,参见文法树的示意图1b,得到的翻译结果为“|a|/a+|b|/b”。
由于文法树中的各个中间节点(即除叶子节点外的其他节点)会存储有拼接模式信息,该拼接模式信息是在设置文法结构时设置的,该拼接模式信息用于确定对应中间节点下不同分支的叶子节点的拼接顺序,因此在采用自上而下TOP-down的解析算法或者自下而上bottom-up的解析算法对文法树进行解析时,可以基于文法树中的中间节点对应的拼接模式信息,确定文法树中的各叶子节点的拼接顺序,然后根据各叶子节点的拼接顺序对各叶子节点进行拼接,得到公式片段对应的公式翻译结果。
S105、将所述初始文本数据中的所述公式片段替换为所述公式翻译结果,得到所述语音对应的语音识别结果。
示例性的,初始文本数据为“求椭圆a的平方分之x的平方+b的平方分之y的平方=1绕x轴旋转”,抽取到的公式片段为“a的平方分之x的平方+b的平方分之y的平方=1”,通过上述步骤得到公式翻译结果为“x^2/a^2+y^2/b^2=1”;通过S105替换后得到的语音识别结果为“求椭圆x^2/a^2+y^2/b^2=1绕x轴旋转”。后续可直接利用识别结果进行搜索,可提高搜索的相关性。
本申请实施例的技术方案,通过识别初始文本数据中的公式片段,并对公式片段进行文法解析,得到公式片段对应的文法树,从而根据文法树得到公式片段对应的公式翻译结果,可以理解公式各个部分相互关系,对公式进行更彻底、精准的改写归一,解决复杂公式的识别翻译。
图2是本申请实施例的另一种语音识别方法的流程图,本实施例在上述实施例的基础上进一步进行优化,增加了通过序列标注模型抽取公式片段的步骤。如图2所示,该方法具体包括如下:
S201、对输入的语音进行语音识别,得到初始文本数据。
S202、获取所述初始文本数据对应的特征数据,将所述特征数据输入至预先训练出的序列标注模型,根据所述序列标注模型的输出结果确定所述初始文本数据中的公式片段。
其中,训练序列标注模型的过程如下:
获取多条样本数据;其中,每条样本数据包括:待识别的文本数据和所述文本数据对应的标签数据,所述标签数据用于表示所述文本数据中公式片段的位置,该位置可以包括公式片段的起始位置和结束位置;
基于所述多条样本数据对所述序列标注模型进行训练。
在得到序列标注模型的基础上,获取初始文本数据对应的特征数据,示例性的,获取拼音特征数据、字特征数据、词特征数据、共现特征数据以及实体特征数据中的至少一个,上述特征数据可以通过自然语言处理中的语言模型n-gram来获得。将特征数据输入至序列标注模型中,对特征数据进行标注,并结合上下文的关联关系输出标注结果,进而确定公式片段。
本申请实施例中,序列标注模型可选的为条件随机场CRF模型。在此需要说明的是,序列标注模型还可以为HMM模型(隐马尔可夫模型)、LSTM模型(长短期记忆模型)、LSTM+CRF模型中的任一一种,而且在选择HMM模型、LSTM模型或LSTM+CRF模型作为序列标注模型时,对应的特征数据是初始文本数据本身。
S203、对所述公式片段进行文法解析,得到所述公式片段对应的文法树。
S204、基于所述文法树得到所述公式片段对应的公式翻译结果。
S205、将所述初始文本数据中的所述公式片段替换为所述公式翻译结果,得到所述语音对应的语音识别结果。
本申请实施例中,通过预先训练的序列标注模型,准确标注公式片段在文本中的位置,进而提升获取公式片段的准确性。
图3是本申请实施例的语音识别装置的结构示意图,本实施例可适用于识别包括复杂公式在内的语音的情况。该装置可实现本申请任意实施例所述的语音识别方法。该装置300具体包括如下:
语音识别模块301,同于对输入的语音进行语音识别,得到初始文本数据;
公式片段识别模块302,用于识别所述初始文本数据中的公式片段;
解析模块303,用于对所述公式片段进行文法解析,得到所述公式片段对应的文法树;
翻译模块304,用于基于所述文法树得到所述公式片段对应的公式翻译结果;
替换模块305,用于将所述初始文本数据中的所述公式片段替换为所述公式翻译结果,得到所述语音对应的语音识别结果。
可选的,解析模块包括:
获取单元,用于获取预先针对公式场景设置的至少一条文法结构、文法节点、操作符和终结符;
解析单元,用于基于所述文法结构、文法节点、操作符和终结符,使用文法解析模型对所述公式片段进行文法解析,得到所述公式片段对应的文法树。
可选的,所述文法解析模型为概率上下文无关文法PCFG模型或者基于词典的Lexical-PCFG模型。
可选的,所述解析单元具体用于:
将所述公式片段作为当前文本片段,将当前文本片段与预先设置的文法结构进行匹配,根据该文法结构将当前文本片段划分为多个子文本片段;并对每个子文本片段递归向下解析得到子节点,即每个子文本片段与一个子节点对应;
对于划分后的各子文本片段,若该子文本片段不是终结符和操作符,则将该子文本片段作为当前文本片段,将该子文本片段对应的子节点作为当前根节点,返回执行将当前文本片段与所述文法结构进行匹配的步骤,直至所述公式片段被解析完成。
可选的,所述翻译模块具体用于:
采用文法树解析算法,对所述文法树进行解析;
根据解析结果确定所述文法树中的各叶子节点的拼接顺序;
根据各叶子节点的拼接顺序对各叶子节点进行拼接,得到所述公式片段对应的公式翻译结果。
可选的,所述公式片段识别模块具体用于:
获取所述初始文本数据对应的特征数据,将所述特征数据输入至预先训练出的序列标注模型,根据所述序列标注模型的输出结果确定所述初始文本数据中的公式片段。
可选的,所述装置还包括:
获取模块,用于获取多条样本数据;
训练模块,用于基于所述多条样本数据对所述序列标注模型进行训练;
其中,每条样本数据包括:待识别的文本数据和所述文本数据对应的标签数据,所述标签数据用于表示所述文本数据中公式片段的位置。
可选的,所述特征数据包括拼音特征数据、字特征数据、词特征数据、共现特征数据以及实体特征数据中的至少一个。
本申请实施例所提供的语音识别装置可执行本申请任意实施例所提供的语音识别方法,具备执行方法相应的功能模块和有益效果。本实施例中未详尽描述的内容可以参考本申请任意方法实施例中的描述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图4所示,是根据本申请实施例的语音识别的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图4所示,该电子设备包括:一个或多个处理器401、存储器402,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器401为例。
存储器402即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的语音识别的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的语音识别的方法。
存储器402作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的语音识别方法对应的程序指令/模块(例如,附图3所示的语音识别模块301、公式片段识别模块302和解析模块303)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的语音识别的方法。
存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据实现本申请实施例的语音识别方法的电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至实现语音识别方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现本申请实施例的语音识别方法的电子设备还可以包括:输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接,图4中以通过总线连接为例。
输入装置403可接收输入的数字或字符信息,以及产生与实现本申请实施例的语音识别方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过识别初始文本数据中的公式片段,并对公式片段进行文法解析,得到公式片段对应的文法树,从而根据文法树得到公式片段对应的公式翻译结果,可以理解公式各个部分相互关系,对公式进行更彻底、精准的改写归一,解决复杂公式的识别翻译,同时更方便扩展。而且在通过预先训练的序列标注模型,准确标注公式片段在文本中的位置,进而提升获取公式片段的准确性。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (17)
1.一种语音识别方法,其特征在于,包括:
对输入的语音进行语音识别,得到初始文本数据;
识别所述初始文本数据中的公式片段;
对所述公式片段进行文法解析,得到所述公式片段对应的文法树;
基于所述文法树得到所述公式片段对应的公式翻译结果;
将所述初始文本数据中的所述公式片段替换为所述公式翻译结果,得到所述语音对应的语音识别结果。
2.根据权利要求1所述的方法,其特征在于,对所述公式片段进行文法解析,得到所述公式片段对应的文法树,包括:
获取预先针对公式场景设置的至少一条文法结构、文法节点、操作符和终结符;
基于所述文法结构、文法节点、操作符和终结符,使用文法解析模型对所述公式片段进行文法解析,得到所述公式片段对应的文法树。
3.根据权利要求2所述的方法,其特征在于,所述文法解析模型为概率上下文无关文法PCFG模型或者基于词典的Lexical-PCFG模型。
4.根据权利要求2所述的方法,其特征在于,基于所述文法结构、文法节点、操作符和终结符,使用文法解析模型对所述公式片段进行文法解析,得到所述公式片段对应的文法树,包括:
将所述公式片段作为当前文本片段,将当前文本片段与预先设置的文法结构进行匹配,根据该文法结构将当前文本片段划分为多个子文本片段;并对每个子文本片段递归向下解析得到子节点,每个子文本片段与一个子节点对应;
对于划分后的各子文本片段,若该子文本片段不是终结符和操作符,则将该子文本片段作为当前文本片段,将该子文本片段对应的子节点作为当前根节点,返回执行将当前文本片段与所述文法结构进行匹配的步骤,直至所述公式片段被解析完成。
5.根据权利要求1所述的方法,其特征在于,基于所述文法树得到所述公式片段对应的公式翻译结果,包括:
采用文法树解析算法,对所述文法树进行解析;
根据解析结果确定所述文法树中的各叶子节点的拼接顺序;
根据各叶子节点的拼接顺序对各叶子节点进行拼接,得到所述公式片段对应的公式翻译结果。
6.根据权利要求1所述的方法,其特征在于,所述识别所述初始文本数据中的公式片段,包括:
获取所述初始文本数据对应的特征数据,将所述特征数据输入至预先训练出的序列标注模型,根据所述序列标注模型的输出结果确定所述初始文本数据中的公式片段。
7.根据权利要求6所述的方法,其特征在于,在通过序列标注模型识别所述初始文本数据中的公式片段之前,还包括:
获取多条样本数据;
基于所述多条样本数据对所述序列标注模型进行训练;
其中,每条样本数据包括:待识别的文本数据和所述文本数据对应的标签数据,所述标签数据用于表示所述文本数据中公式片段的位置。
8.根据权利要求6所述的方法,其特征在于,所述特征数据包括拼音特征数据、字特征数据、词特征数据、共现特征数据以及实体特征数据中的至少一个。
9.一种语音识别装置,其特征在于,包括:
语音识别模块,同于对输入的语音进行语音识别,得到初始文本数据;
公式片段识别模块,用于识别所述初始文本数据中的公式片段;
解析模块,用于对所述公式片段进行文法解析,得到所述公式片段对应的文法树;
翻译模块,用于基于所述文法树得到所述公式片段对应的公式翻译结果;
替换模块,用于将所述初始文本数据中的所述公式片段替换为所述公式翻译结果,得到所述语音对应的语音识别结果。
10.根据权利要求9所述的装置,其特征在于,解析模块包括:
获取单元,用于获取预先针对公式场景设置的至少一条文法结构、文法节点、操作符和终结符;
解析单元,用于基于所述文法结构、文法节点、操作符和终结符,使用文法解析模型对所述公式片段进行文法解析,得到所述公式片段对应的文法树。
11.根据权利要求10所述的装置,其特征在于,所述解析单元具体用于:
将所述公式片段作为当前文本片段,将当前文本片段与预先设置的文法结构进行匹配,根据该文法结构将当前文本片段划分为多个子文本片段;并对每个子文本片段递归向下解析得到子节点,每个子文本片段与一个子节点对应;
对于划分后的各子文本片段,若该子文本片段不是终结符和操作符,则将该子文本片段作为当前文本片段,将该子文本片段对应的子节点作为当前根节点,返回执行将当前文本片段与所述文法结构进行匹配的步骤,直至所述公式片段被解析完成。
12.根据权利要求9所述的装置,其特征在于,所述翻译模块具体用于:
采用文法树解析算法,对所述文法树进行解析;
根据解析结果确定所述文法树中的各叶子节点的拼接顺序;
根据各叶子节点的拼接顺序对各叶子节点进行拼接,得到所述公式片段对应的公式翻译结果。
13.根据权利要求9所述的装置,其特征在于,所述公式片段识别模块具体用于:
获取所述初始文本数据对应的特征数据,将所述特征数据输入至预先训练出的序列标注模型,根据所述序列标注模型的输出结果确定所述初始文本数据中的公式片段。
14.根据权利要求13所述的装置,其特征在于,所述装置还包括:
获取模块,用于获取多条样本数据;
训练模块,用于基于所述多条样本数据对所述序列标注模型进行训练;
其中,每条样本数据包括:待识别的文本数据和所述文本数据对应的标签数据,所述标签数据用于表示所述文本数据中公式片段的位置。
15.根据权利要求13所述的装置,其特征在于,所述特征数据包括拼音特征数据、字特征数据、词特征数据、共现特征数据以及实体特征数据中的至少一个。
16.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的语音识别方法。
17.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的语音识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910854154.XA CN110473551B (zh) | 2019-09-10 | 2019-09-10 | 一种语音识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910854154.XA CN110473551B (zh) | 2019-09-10 | 2019-09-10 | 一种语音识别方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110473551A true CN110473551A (zh) | 2019-11-19 |
CN110473551B CN110473551B (zh) | 2022-07-08 |
Family
ID=68515399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910854154.XA Active CN110473551B (zh) | 2019-09-10 | 2019-09-10 | 一种语音识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110473551B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990552A (zh) * | 2019-12-18 | 2020-04-10 | 北京声智科技有限公司 | 确定自然语言算式的运算顺序的方法及装置 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0248377A2 (en) * | 1986-06-02 | 1987-12-09 | Motorola, Inc. | Continuous speech recognition system |
US20080240567A1 (en) * | 2007-03-30 | 2008-10-02 | Microsoft Corporation | Displaying text of a writing system using syntax-directed translation |
CN105161095A (zh) * | 2015-07-29 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 语音识别语法树的构图方法及装置 |
CN106406562A (zh) * | 2016-08-31 | 2017-02-15 | 北京小米移动软件有限公司 | 数据处理方法及装置 |
CN106571144A (zh) * | 2016-11-08 | 2017-04-19 | 广东小天才科技有限公司 | 一种基于语音识别的搜索方法及装置 |
CN106940637A (zh) * | 2017-03-13 | 2017-07-11 | 刘新星 | 声控计算方法、装置及用户终端 |
CN107301163A (zh) * | 2016-04-14 | 2017-10-27 | 科大讯飞股份有限公司 | 包含公式的文本语义解析方法及装置 |
CN107729865A (zh) * | 2017-10-31 | 2018-02-23 | 中国科学技术大学 | 一种手写体数学公式离线识别方法及系统 |
CN108153700A (zh) * | 2017-12-14 | 2018-06-12 | 北京酷我科技有限公司 | 一种iOS上声控计算器的实现方法 |
CN108255798A (zh) * | 2016-12-28 | 2018-07-06 | 北京新唐思创教育科技有限公司 | 一种拉泰赫格式公式的输入方法及其装置 |
CN108537183A (zh) * | 2018-04-13 | 2018-09-14 | 拉扎斯网络科技(上海)有限公司 | 公式自动识别方法、装置、电子设备及存储介质 |
CN109325098A (zh) * | 2018-08-23 | 2019-02-12 | 上海互教教育科技有限公司 | 用于数学题目语义解析的指代消解方法 |
CN109614944A (zh) * | 2018-12-17 | 2019-04-12 | 科大讯飞股份有限公司 | 一种数学公式识别方法、装置、设备及可读存储介质 |
CN109977958A (zh) * | 2019-03-25 | 2019-07-05 | 中国科学技术大学 | 一种离线手写体数学公式识别重构方法 |
-
2019
- 2019-09-10 CN CN201910854154.XA patent/CN110473551B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0248377A2 (en) * | 1986-06-02 | 1987-12-09 | Motorola, Inc. | Continuous speech recognition system |
US20080240567A1 (en) * | 2007-03-30 | 2008-10-02 | Microsoft Corporation | Displaying text of a writing system using syntax-directed translation |
CN105161095A (zh) * | 2015-07-29 | 2015-12-16 | 百度在线网络技术(北京)有限公司 | 语音识别语法树的构图方法及装置 |
CN107301163A (zh) * | 2016-04-14 | 2017-10-27 | 科大讯飞股份有限公司 | 包含公式的文本语义解析方法及装置 |
CN106406562A (zh) * | 2016-08-31 | 2017-02-15 | 北京小米移动软件有限公司 | 数据处理方法及装置 |
CN106571144A (zh) * | 2016-11-08 | 2017-04-19 | 广东小天才科技有限公司 | 一种基于语音识别的搜索方法及装置 |
CN108255798A (zh) * | 2016-12-28 | 2018-07-06 | 北京新唐思创教育科技有限公司 | 一种拉泰赫格式公式的输入方法及其装置 |
CN106940637A (zh) * | 2017-03-13 | 2017-07-11 | 刘新星 | 声控计算方法、装置及用户终端 |
CN107729865A (zh) * | 2017-10-31 | 2018-02-23 | 中国科学技术大学 | 一种手写体数学公式离线识别方法及系统 |
CN108153700A (zh) * | 2017-12-14 | 2018-06-12 | 北京酷我科技有限公司 | 一种iOS上声控计算器的实现方法 |
CN108537183A (zh) * | 2018-04-13 | 2018-09-14 | 拉扎斯网络科技(上海)有限公司 | 公式自动识别方法、装置、电子设备及存储介质 |
CN109325098A (zh) * | 2018-08-23 | 2019-02-12 | 上海互教教育科技有限公司 | 用于数学题目语义解析的指代消解方法 |
CN109614944A (zh) * | 2018-12-17 | 2019-04-12 | 科大讯飞股份有限公司 | 一种数学公式识别方法、装置、设备及可读存储介质 |
CN109977958A (zh) * | 2019-03-25 | 2019-07-05 | 中国科学技术大学 | 一种离线手写体数学公式识别重构方法 |
Non-Patent Citations (3)
Title |
---|
JELINEK F: ""Basic Methods of Probabilistic Context Free Grammars"", 《SPRINGER BERLIN HEIDELBERG》 * |
张祝玉: ""基于条件随机场的中文命名实体识别"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
杨巨峰: ""联机手写化学公式处理关键问题研究"", 《中国博士学位论文全文数据库》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990552A (zh) * | 2019-12-18 | 2020-04-10 | 北京声智科技有限公司 | 确定自然语言算式的运算顺序的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110473551B (zh) | 2022-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020119075A1 (zh) | 通用文本信息提取方法、装置、计算机设备和存储介质 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN108549637A (zh) | 基于拼音的语义识别方法、装置以及人机对话系统 | |
US20190163691A1 (en) | Intent Based Dynamic Generation of Personalized Content from Dynamic Sources | |
CN113220836B (zh) | 序列标注模型的训练方法、装置、电子设备和存储介质 | |
CN110516256A (zh) | 一种中文命名实体提取方法及其系统 | |
EP3879427A2 (en) | Information extraction method, extraction model training method, apparatus and electronic device | |
CN110532573A (zh) | 一种翻译方法和系统 | |
US11907671B2 (en) | Role labeling method, electronic device and storage medium | |
CN102567306B (zh) | 一种不同语言间词汇相似度的获取方法及系统 | |
CN110517767B (zh) | 辅助诊断方法、装置、电子设备及存储介质 | |
WO2021174864A1 (zh) | 基于少量训练样本的信息抽取方法及装置 | |
US20210406467A1 (en) | Method and apparatus for generating triple sample, electronic device and computer storage medium | |
CN112269862B (zh) | 文本角色标注方法、装置、电子设备和存储介质 | |
CN110532567A (zh) | 短语的提取方法、装置、电子设备及存储介质 | |
US20220414463A1 (en) | Automated troubleshooter | |
Laur et al. | Estnltk 1.6: Remastered estonian nlp pipeline | |
CN111160041A (zh) | 语义理解方法、装置、电子设备和存储介质 | |
CN109918677B (zh) | 一种英文单词语义解析的方法及系统 | |
CN110473551A (zh) | 一种语音识别方法、装置、电子设备及存储介质 | |
CN113095082A (zh) | 一种基于多任务模型进行文本处理的方法、装置、计算机装置及计算机可读取存储介质 | |
KR101559576B1 (ko) | 모바일 대화 시스템의 언어 인식 모듈을 위한 동시 인식 장치 및 방법 | |
Roy et al. | Suffix based automated parts of speech tagging for Bangla language | |
AU2015305397A1 (en) | Lexical dialect analysis system | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |