CN116524926A - 一种用于在移动端通过语音控制生成业务表单的方法 - Google Patents
一种用于在移动端通过语音控制生成业务表单的方法 Download PDFInfo
- Publication number
- CN116524926A CN116524926A CN202310478642.1A CN202310478642A CN116524926A CN 116524926 A CN116524926 A CN 116524926A CN 202310478642 A CN202310478642 A CN 202310478642A CN 116524926 A CN116524926 A CN 116524926A
- Authority
- CN
- China
- Prior art keywords
- service
- text
- mobile terminal
- voice control
- business
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013507 mapping Methods 0.000 claims abstract description 49
- 238000004458 analytical method Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 16
- 238000011161 development Methods 0.000 abstract description 7
- 238000013461 design Methods 0.000 abstract description 4
- 238000012423 maintenance Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 230000008451 emotion Effects 0.000 description 5
- 238000007689 inspection Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 108091026890 Coding region Proteins 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供的一种用于在移动端通过语音控制生成业务表单的方法,包括:根据文本语义和表单业务元素的映射规则,构建业务表单配置文件;在移动端接收语音控制内容,通过语音识别模型将接收的语音控制内容转换成业务文本,并通过服务端对所述业务文本进行语义解析,然后根据解析结果和所述业务表单配置文件来确定业务表单元素生成指令;根据所确定的业务表单生成指令在所述移动端生成与所述语音控制内容相对应的业务表单。本发明实现了从语音到表单的完整生成过程,降低表单开发的专业性,为产品规划软件设计、软件开发等的表单设计和表单开发提供了便利。
Description
技术领域
本发明涉及数据结构化领域,具体涉及一种用于在移动端通过语音控制生成业务表单的方法。
背景技术
产品设计和开发过程中会使用到表单功能。例如,为了在企业内部的各个系统中高效地沟通,表单需要符合预设的标准化体系,使生成的表单格式保持一致。但在针对产品开发人员和用户的需求生成业务表单时,业务表单上通常会将自己设计和开发的内容加入特有的标签等。
传统生成业务表单的方法通常是由用户手工创建的,或者预先保存业务表单的样本,在输入相应的表项之后生成表单。可见,传统的通过人工生成表单的方式,会占用开发人员较多的时间,导致业务流程效率低下。
发明内容
为了解决现有技术中所存在的问题,本发明提供一种用于在移动端通过语音控制生成业务表单的方法,包括:
S1、根据文本语义和表单业务元素的映射规则,构建业务表单配置文件;
S2、在移动端接收语音控制内容,通过语音识别模型将接收的语音控制内容转换成业务文本,并通过服务端对所述业务文本进行语义解析,然后根据解析结果和所述业务表单配置文件来确定业务表单元素生成指令;
S3、根据所确定的业务表单生成指令在所述移动端生成与所述语音控制内容相对应的业务表单。
优选地,所述根据文本语义和表单业务元素的映射规则,构建业务表单配置文件,进一步包括:
预先提取业务表单中的所有业务元素部分,为每个业务元素设置其映射的语义调用,将表单内的各个业务元素定义成相应的标签,每个标签均对应于移动端的功能实现代码;
确定文本语义和表单业务元素标签的映射规则,将所有的映射规则写入所述业务表单配置文件中。
优选地,所述将接收的语音控制内容转换成业务文本,进一步包括:
根据预设的知识图谱识别所述业务文本的核心词,根据所识别的核心词对所述业务文本执行格式化转换,获得标记有每个核心词的格式化文本;
在格式化文本中识别并标记出关键词,对利用所述格式化文本中的每个被标记的关键词进行分组,并基于所述预设的知识图谱中的历史业务词库对分组之后的格式化文本进行校正,以获得文本形式的业务数据。
优选地,在所述通过语音识别模型将接收的语音控制内容转换成业务文本之后,还包括:
将所述业务文本划分成多个离散的音素单元,使得所述语音控制内容的相应音频段与独立的音素单元相关。
优选地,该方法还包括:
识别预定义特征词列表中对应于业务文本中的业务术语词的多个特征词,并将每个识别到的特征词与具有对应的业务术语词的多个音素单元相关联。
优选地,基于所述语音控制内容中的相邻音频段之间的空闲时间长度,将所述业务文本划分成所述多个音素单元。
优选地,所述根据所确定的业务表单生成指令在所述移动端生成与所述语音控制内容相对应的业务表单,进一步包括:
当确定业务表单生成指令时,将定义的表单元素转换成代码实现,根据基本的操作指令生成代码元素,从而在移动端根据所述表单生成指令生成表单项。
基于同一发明构思,本发明还提供了一种移动终端,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上所述方法的步骤。
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上所述方法的步骤。
与现有技术相比,本发明的有益效果为:
本发明提供的一种用于在移动端通过语音控制生成业务表单的方法,包括,根据文本语义和表单业务元素的映射规则,构建业务表单配置文件;在移动端接收语音控制内容,通过语音识别模型将接收的语音控制内容转换成业务文本,并通过服务端对所述业务文本进行语义解析,然后根据解析结果和所述业务表单配置文件来确定业务表单元素生成指令;根据所确定的业务表单生成指令在所述移动端生成与所述语音控制内容相对应的业务表单。本发明的方案通过建立语义和表单标签映射库,同时在移动端实现指令构建表单的功能,实现了从语音到表单生成的完整过程,为产品规划软件设计、软件开发等的表单设计和表单开发提供了便利,不具备专业技能的普通用户也可以简单地根据需求来构建表单。
附图说明
图1为根据本发明的用于在移动端通过语音控制生成业务表单的方法的总体流程图。
图2为根据本发明的语音控制的业务表单生成方法的详细流程框架示意图。
图3示出了根据本发明的语音控制的业务表单生成方法的过程示意图。
具体实施方式
下文将结合附图通过示例性的实施方式对本发明进行具体描述。所描述的实施例仅仅是本发明的一个应用场景,而不是全部。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获的所有实施例,都属于本发明保护的范围。
本发明针对现有技术存在的上述问题,提供了一种在移动端通过语音控制生成业务表单的方法。通过移动端语音识别形成的文本,进行基本的语义分析,通过数据库的文本语义和移动端表单的映射规则,生成移动端既定的指令,移动端根据指令完成表单生成功能。本发明结合软件的术语标准和表单实现功能,实现由语音数据到业务表单的转换,从而为产品规划软件设计、软件开发人员实现表单功能提供便利。
实施例1:
如图1所示,本发明提供一种用于在移动端通过语音控制生成业务表单的方法包括:
S1、根据文本语义和表单业务元素的映射规则,构建业务表单配置文件。
结合图2的语音控制的业务表单生成方法的流程框架图,在接收语音数据之前的预处理阶段,需要预先提取业务表单中的所有业务元素部分,为每个业务元素设置其映射的语义调用,将表单内的各个业务元素定义成相应的标签。具体地,可以整理出每个表单功能点,例如间距、位移、大小等专业术语,并为每个功能点设置标签。每个标签均对应于移动端的功能实现代码。为实现表单生成的标准化,可以与产品设计人员共同确定文本语义和表单业务元素标签的映射规则,将所有的映射规则写入业务表单配置文件中,作为业务表单必须遵循的一种标准化表单体系。
S2、在移动端接收语音控制内容,通过语音识别模型将接收的语音控制内容转换成业务文本。
具体而言,可以利用移动端本身具备的录音功能,通过语音录入和识别技术将语音转换成文本形式的业务数据。在进一步的实施例中,根据预设的知识图谱识别所述业务文本的核心词,根据所识别的核心词对所述业务文本执行格式化转换,获得标记有每个核心词的格式化文本。在格式化文本中识别并标记出关键词,对利用所述格式化文本中的每个被标记的关键词进行分组,并基于所述预设的知识图谱中的历史业务词库对分组之后的格式化文本进行校正处理,以获得文本形式的业务数据。
然后进入步骤S3,由移动端将识别得到的业务文本上传到服务端。由服务端将文本序列进行语义解析。
S3、通过服务端对所述业务文本进行语义解析,然后根据解析结果和所述业务表单配置文件来确定业务表单元素生成指令。
由于在步骤S1中预先建立了文本语义和表单业务元素的映射规则,因此可以通过该业务表单配置文件,将文本形式的语义解析结果一一映射成移动端的表单元素生成指令。具体地,所述表单元素生成指令是与相应的表单元素所对应的生成指令。
在优选的实施例中,当确定与所接收的语音数据中相对应的业务文本之后,可以将所述业务文本划分成多个离散的音素单元,使得所述语音控制内容的相应音频段与独立的音素单元相关。识别预定义特征词列表中对应于业务文本中的业务术语词的多个特征词,并将每个识别到的特征词与具有对应的业务术语词的多个音素单元相关联。具体而言,将所述业务文本划分成所述多个音素单元可以基于所述语音控制内容中的相邻音频段之间的空闲时间长度。
接下来,对每个音素单元执行情感分析过程,以确定每个音素单元的相应第一分值,对与每个音素单元相关的所述语音数据的所述相应音频段执行最大熵建模分析,以确定每个音素单元的相应第二分值。基于所述多个音素单元的相应第一分值和相应第二分值,确定与所述多个音素单元相关联的所述预定特征词列表中的每个特征词的特征词分值,基于与所述多个音素单元中的相关联的所述多个特征词和及其对应的特征词分值,确定语义解析结果。其中,在所述情感分析过程中,所述情感数据包括来自多个音素单元中的相应音素单元的词语的重复次数、多个音素单元中的相应音素单元的副词的数量,以及与多个音素单元中的相应音素单元相关联的特征词的情感特征分值。
其中所述情感分析过程确定与所述多个音素单元中的每个音素单元相关的所述语音数据的相应音频段的声音特征。该声音特征可以包括所述语音数据的所述相应音频段中的语音音调、语音速度、语音音调变化量或语音速度变化量。在确定每个特征词的特征词分值的过程中时,基于上述声音特征进行特征词分值的计算。
S4、根据所确定的业务表单生成指令在所述移动端生成与所述语音控制内容相对应的业务表单。
如前所述,每个表单元素标签均对应于移动端的功能实现代码。因此当确定业务表单生成指令时,可以将定义的表单元素转换成代码实现,根据基本的操作指令生成代码元素,从而使得移动端根据表单生成指令生成表单项。
为了过滤业务文本中的无关信息,在语义解析之前,进一步通过以下过程提取业务文本中的表单元素:
根据业务文本创建参数向量,所述参数向量包括业务文本中的每个实体词的词性向量和词嵌入。利用RNN神经网络来处理与每个实体词相关的参数向量,以将有效标记分配给业务文本中的每个实体词,基于业务文本中的每个实体词相关联的有效标记,从所述业务文本中提取表单元素。
其中在利用RNN神经网络来处理与每个实体词相关的参数向量之前还包括,所述RNN神经网络可以预先实现训练,包括从多个业务场景的数据库中检索业务文本,将所述有效标记分配给检索到的业务文本中的每个实体词,并迭代地将与每个实体词相关联的有效标记输入到所述RNN神经网络。
图3示出了根据本发明的用于在移动端通过语音控制生成业务表单的方法的详细过程示意图。优选地,可以重复上述步骤,当生成所有的表单元素之后,组合形成最终的业务表单。
通过本发明的上述实施例,通过建立语义和表单标签映射库,同时移动端执行指令构建表单的功能,实现从语音到表单生成的完整过程,为表单设计和表单开发提供了便利。通过表单的标准化,降低了表单开发的专业性,没有专业技能的用户也可以构建自己想要的表单,并减少了表单使用人员的工作,提升开发效率。
根据本发明可选的实施例,在将语音转换成文本形式的业务数据的过程中,首先根据所述语音和语音识别模型生成初始识别文本,基于该初始识别文本来确定第一业务术语词和第二业务术语词。
使用所述第一业务术语词查询业务表单配置文件,以确定与第一映射概率相关联的第一映射实体词,其中所述第一映射概率指示所述第一映射实体词对应于所述第一业务术语词的可能性,并使用所述第二业务术语词查询所述业务表单配置文件,以确定与第二映射概率相关联的第二映射实体词,其中所述第二映射概率指示所述第二映射实体词对应于所述第二业务术语词的可能性。
当确定与所述第一映射实体词相关联的所述第一映射概率达到阈值映射概率时,并且当与所述第一映射实体词相关联的映射概率和与所述第二映射实体词相关联的映射概率的组合未达到所述阈值映射概率时,从所述初始识别文本和所述第一映射实体词获得第二业务文本。基于所述第二业务文本,确定包括在所述业务表单配置文件中的第三映射实体词,其中所述第三映射实体词与达到所述阈值映射概率的第三映射概率相关联,将所述第三映射实体词加入所述语义解析结果。
其中通过以下步骤从所述初始识别文本和所述第一映射实体词获得所述第二业务文本,即:
调整用于生成所述初始识别文本的所述语音识别模型中的第一映射实体词的映射概率,并根据所述语音识别模型和所述语音生成所述第二业务文本。在确定第一映射实体词时,可以通过使用所述第一业务术语词的语音表示来查询所述业务表单配置文件,以确定所述第一映射实体词。
其中,当根据用户语音识别得到的业务文本中包含多个业务术语词时,将Soundex算法应用于上述业务术语词以创建语音编码;将所创建的语音编码与存储在所述语音编码数据库中的预定义业务术语代码进行比较。如果所创建的语音编码与语音编码数据库中的预定义业务术语代码匹配,则从语音编码数据库中确定是否存在相匹配的业务术语代码的同义术语词。当确定存在多个同义术语词时,应用来自所述语音编码数据库的语音编码序列,以向用户输出所述多个同义术语词中的哪一个是正确的文本提示,并应用语音编码序列以向所述用户提供与所述文本提示相对应的语音提示,并将相匹配的预定义业务术语代码转换为包括所述多个同义术语词中的正确拼写的文本。可选地,如果如果所创建的语音编码与语音编码数据库中的任一个预定义业务术语代码匹配,则向用户输出提示以展示所述同义术语词正确拼写的文本。
在步骤S3中,对业务文本进行语义解析的过程可以被转换为分类过程,即将输入的文本的意图映射到预定义分类中。首先预测语音控制内容意图的类型,如果需要进一步的参数,则在语音控制内容中查找对应的参数。
通过对概率p(c1…ct|ε1…εt)的建模来将意图分类形式化。ε1…εt代表输入的语音控制内容中的单个业务术语词,t为语音控制内容中的业务术语词数量,而c1…ct∈C代表所有可能的意图分类集合。建立每一种意图分类结果的概率分布。
计算得到:
v表示预定义的业务术语词集合X与意图分类集合C的有限集特征向量,通过c1…ct以及ε1…εt的预训练,获得参数向量λ,最终得到p(c1…ct|ε1…εt)。
在完成预训练之后,计算对于输入ε1…εt的状态c1…ct,即求解:
argmax c1…ct p(c1…ct|ε1…εt)
当选择多个特征之后,根据训练样本添加特征,并调节权重参数。在针对语义解析的文本分类中,对于给定业务术语词集合X与标记集合C的训练样本(ai,bi),i=l,…,n,n为训练样本总数,定义优化函数:
通过求解上述优化函数,得到最大值时的训练样本点ai,根据λTai>0确定训练样本点ai的分类结果。
为确定语音控制内容来自被授权的用户,需要验证移动端的语音是否与授权用户相匹配。因此,在本发明优选的实施例中,首先提取语音控制内容的GMM特征;验证该语音控制内容的用户特征是否属于授权用户并且转换后的业务文本内容与预设业务文本模板是否相匹配,并得到语音验证变量VC;
其中,上述验证该语音控制内容的用户特征是否属于授权用户并且转换后的业务文本内容与预设业务文本模板是否相匹配,进一步包括:
基于业务文本模板构建GMM基线特征值;
根据语音控制内容的GMM特征以及所述GMM基线特征值,得到语音控制内容的GMM特征与GMM基线特征值状态之间的映射,使得:
式中,Δμ为语音控制内容的GMM特征集合{δμ(1),δμ(2),...,δμ(Nμ)},Nμ为语音控制内容特征总数量,下标μ代表语音控制内容段,H为GMM基线特征值,MAPμ为语音控制内容GMM特征与GMM状态的映射,p(Δμ|G,MAPμ)表示语音控制内容GMM特征集合Δμ在GMM基线特征值以及状态映射MAPμ下的条件概率值,MAP*μ为HMM算法得到的语音控制内容GMM特征与GMM基线特征值状态之间的最优映射;
根据语音控制内容的GMM特征与GMM基线特征值状态之间的映射,进而得到语音控制内容GMM特征与各个字符的映射,计算语音控制内容在用户声纹GMM模型以及通用GMM模型的对数LLR,作为语音验证变量VC:
式中,δμ(n)为语音控制内容的第n段GMM特征,表示语音控制内容中所有文本对应的GMM特征数量,τ(n)为业务文本模板条件下语音控制内容第n段GMM特征对应的文本,Ω0 τ(n)和Ωτ(n)分别为文本τ(n)对应的用户声纹GMM模型和通用GMM模型,p(δμ(n)|Ω0 τ(n))和p(δμ(n)|Ωτ(n))分别为δμ(n)在两种GMM模型下的条件概率。
最终,根据语音验证变量VC得到验证特征值,并与预定义阈值比较。如果所述验证特征值超过所述预定义阈值,则确定所述语音控制内容来自授权用户并且业务文本内容合法有效,否则验证失败。
为使本领域技术人员更加明确本发明的构思,下文以电力设施维修工控平台为例,通过示例性的实施方式对本发明的在手持巡视设备通过语音控制生成电力设施维修业务单的过程进行具体描述。根据本实施例的用于在手持巡视设备通过语音控制生成电力设施维修业务单的方法包括:
A1、根据电网领域文本语义和电力设施工作流业务单元素的映射规则,构建电力设施维修业务单配置文件。
在接收表单语音数据之前的预处理阶段,根据手持设备用户任务的分工及相应用户角色的权限,需要预先将电力设施维修业务单中的所有电力设施工作流业务单元素部分整理出来,为每个业务元素设置其映射的语义调用,将表单内的各个业务元素定义成相应的标签,包括整理出每个表单功能点,并为每个功能点设置标签。每个标签均对应于手持巡视设备的功能实现代码。为实现表单生成的标准化,可以与电力设施维修工控平台设计人员共同确定电网领域文本语义和电力设施工作流业务单元素标签的映射规则,将所有的映射规则写入电力设施维修业务单配置文件中,作为电力设施维修业务表单必须遵循的一种标准化表单体系。
A2、在手持巡视设备接收语音控制内容,通过语音识别模型将接收的语音控制内容转换成电力设施维修内容文本。
利用手持巡视设备本身具备的录音功能,通过语音录入和识别技术,将语音控制数据转换成文本形式的电力设施维修业务数据。然后由手持巡视设备将电力设施维修内容文本上传到电力设施维修工控平台服务端。由电力设施维修工控平台服务端将文本序列进行语义解析。
A3、通过电力设施维修工控平台服务端对所述电力设施维修内容文本进行语义解析,然后根据解析结果和所述电力设施维修业务单配置文件来确定电力设施工作流业务单元素生成命令。
由于在步骤A1中预先建立了电网领域文本语义和电力设施工作流业务单元素的映射规则,因此可以通过该电力设施维修业务单配置文件,将文本形式的语义解析结果一一映射成手持巡视设备的表单元素生成指令。所述表单元素生成指令是与相应的表单元素所对应的生成指令。
A4、根据所确定的电力设施工作流业务单生成指令,在所述手持巡视设备端生成与所述语音控制内容相对应的电力设施工作流业务单。
如前所述,每个表单元素标签均对应于手持巡视设备的功能实现代码。因此当确定电力设施工作流业务单生成指令时,可以将定义的电力设施工作流业务单元素转换成代码实现,根据基本的操作指令生成代码元素,从而使得手持巡视设备根据表单生成指令生成电力设施工作流业务单元素。
优选地,可以重复上述步骤,当生成所有的表单元素之后,组合形成最终的电力设施工作流业务单。
实施例2:
为了实现上述方法,本发明还提供一种用于在移动端通过语音控制生成业务表单的装置,包括:
预处理模块201,用于根据文本语义和表单业务元素的映射规则,构建业务表单配置文件;
转换模块202,用于在移动端接收语音控制内容,通过语音识别模型将接收的语音控制内容转换成业务文本;
解析模块203,用于通过服务端对所述业务文本进行语义解析,然后根据解析结果和所述业务表单配置文件来确定业务表单元素生成指令;
生成模块204,用于根据所确定的业务表单生成指令在所述移动端生成与所述语音控制内容相对应的业务表单。
本实施例中的各功能模块所实现的功能同实施例1,这里不再赘述。
实施例3:
本发明还提供了一种移动终端,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上所述方法的步骤。
实施例4:
本发明还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现如上所述方法的步骤。
显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其它实施例,都属于本发明保护的范围。
本领域内的技术人员应当理解,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在多个其中包含计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。
Claims (10)
1.一种用于在移动端通过语音控制生成业务表单的方法,其特征在于,包括:
S1、根据文本语义和表单业务元素的映射规则,构建业务表单配置文件;
S2、在移动端接收语音控制内容,通过语音识别模型将接收的语音控制内容转换成业务文本;
S3、通过服务端对所述业务文本进行语义解析,然后根据解析结果和所述业务表单配置文件来确定业务表单元素生成指令;
S4、根据所确定的业务表单生成指令在所述移动端生成与所述语音控制内容相对应的业务表单。
2.根据权利要求1所述的用于在移动端通过语音控制生成业务表单的方法,其特征在于,所述根据文本语义和表单业务元素的映射规则,构建业务表单配置文件,进一步包括:
预先提取业务表单中的所有业务元素部分,为每个业务元素设置其映射的语义调用,将表单内的各个业务元素定义成相应的标签,每个标签均对应于移动端的功能实现代码;
确定文本语义和表单业务元素标签的映射规则,将所有的映射规则写入所述业务表单配置文件中。
3.根据权利要求1所述的用于在移动端通过语音控制生成业务表单的方法,其特征在于,所述将接收的语音控制内容转换成业务文本,进一步包括:
根据预设的知识图谱识别所述业务文本的核心词,根据所识别的核心词对所述业务文本执行格式化转换,获得标记有每个核心词的格式化文本。
4.根据权利要求3所述的用于在移动端通过语音控制生成业务表单的方法,其特征在于,还包括:
在格式化文本中识别并标记出关键词,对利用所述格式化文本中的每个被标记的关键词进行分组,并基于所述预设的知识图谱中的历史业务词库对分组之后的格式化文本进行校正,以获得文本形式的业务数据。
5.根据权利要求1所述的用于在移动端通过语音控制生成业务表单的方法,在所述通过语音识别模型将接收的语音控制内容转换成业务文本之后,还包括:
将所述业务文本划分成多个离散的音素单元,使得所述语音控制内容的相应音频段与独立的音素单元相关。
6.根据权利要求5所述的用于在移动端通过语音控制生成业务表单的方法,其特征在于,还包括:
识别预定义特征词列表中对应于业务文本中的业务术语词的多个特征词,并将每个识别到的特征词与具有对应的业务术语词的多个音素单元相关联。
7.根据权利要求6所述的用于在移动端通过语音控制生成业务表单的方法,其特征在于,所述将所述业务文本划分成多个离散的音素单元,进一步包括:
基于所述语音控制内容中的相邻音频段之间的空闲时间长度,将所述业务文本划分成所述多个音素单元。
8.根据权利要求1所述的用于在移动端通过语音控制生成业务表单的方法,其特征在于,所述根据所确定的业务表单生成指令在所述移动端生成与所述语音控制内容相对应的业务表单,进一步包括:
当确定业务表单生成指令时,将定义的表单元素转换成代码实现,根据基本的操作指令生成代码元素,从而在移动端根据所述表单生成指令生成表单项。
9.一种移动终端,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310478642.1A CN116524926B (zh) | 2023-04-27 | 2023-04-27 | 一种用于在移动端通过语音控制生成业务表单的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310478642.1A CN116524926B (zh) | 2023-04-27 | 2023-04-27 | 一种用于在移动端通过语音控制生成业务表单的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116524926A true CN116524926A (zh) | 2023-08-01 |
CN116524926B CN116524926B (zh) | 2024-06-04 |
Family
ID=87405956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310478642.1A Active CN116524926B (zh) | 2023-04-27 | 2023-04-27 | 一种用于在移动端通过语音控制生成业务表单的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116524926B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109460474A (zh) * | 2018-11-22 | 2019-03-12 | 合肥工业大学 | 用户偏好趋势挖掘方法 |
CN109584885A (zh) * | 2018-10-29 | 2019-04-05 | 李典 | 一种基于多模情感识别技术的音视频输出方法 |
CN111563220A (zh) * | 2020-04-27 | 2020-08-21 | 平安国际智慧城市科技股份有限公司 | 业务网站项目构建方法、装置、计算机设备和存储介质 |
CN113010632A (zh) * | 2019-12-20 | 2021-06-22 | 中兴通讯股份有限公司 | 智能问答方法、装置、计算机设备和计算机可读介质 |
CN113867781A (zh) * | 2021-09-29 | 2021-12-31 | 深圳Tcl新技术有限公司 | 语音功能配置管理方法、装置、电子设备及可读存储介质 |
US20220129635A1 (en) * | 2019-06-28 | 2022-04-28 | Siemens Aktiengesellschaft | Semantic model instantiation method, system and apparatus |
US20220129637A1 (en) * | 2020-10-23 | 2022-04-28 | International Business Machines Corporation | Computerized selection of semantic frame elements from textual task descriptions |
CN114926210A (zh) * | 2022-05-24 | 2022-08-19 | 咪咕文化科技有限公司 | 评论生成方法、装置、设备及计算机可读存储介质 |
CN115509485A (zh) * | 2022-08-19 | 2022-12-23 | 中国电信股份有限公司 | 一种业务表单的填写方法、装置、电子设备和存储介质 |
-
2023
- 2023-04-27 CN CN202310478642.1A patent/CN116524926B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109584885A (zh) * | 2018-10-29 | 2019-04-05 | 李典 | 一种基于多模情感识别技术的音视频输出方法 |
CN109460474A (zh) * | 2018-11-22 | 2019-03-12 | 合肥工业大学 | 用户偏好趋势挖掘方法 |
US20220129635A1 (en) * | 2019-06-28 | 2022-04-28 | Siemens Aktiengesellschaft | Semantic model instantiation method, system and apparatus |
CN113010632A (zh) * | 2019-12-20 | 2021-06-22 | 中兴通讯股份有限公司 | 智能问答方法、装置、计算机设备和计算机可读介质 |
CN111563220A (zh) * | 2020-04-27 | 2020-08-21 | 平安国际智慧城市科技股份有限公司 | 业务网站项目构建方法、装置、计算机设备和存储介质 |
US20220129637A1 (en) * | 2020-10-23 | 2022-04-28 | International Business Machines Corporation | Computerized selection of semantic frame elements from textual task descriptions |
CN113867781A (zh) * | 2021-09-29 | 2021-12-31 | 深圳Tcl新技术有限公司 | 语音功能配置管理方法、装置、电子设备及可读存储介质 |
CN114926210A (zh) * | 2022-05-24 | 2022-08-19 | 咪咕文化科技有限公司 | 评论生成方法、装置、设备及计算机可读存储介质 |
CN115509485A (zh) * | 2022-08-19 | 2022-12-23 | 中国电信股份有限公司 | 一种业务表单的填写方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116524926B (zh) | 2024-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11210306B2 (en) | Dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system | |
US11741109B2 (en) | Dialogue system, a method of obtaining a response from a dialogue system, and a method of training a dialogue system | |
CN108304372B (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
US11676067B2 (en) | System and method for creating data to train a conversational bot | |
CN111145718B (zh) | 一种基于自注意力机制的中文普通话字音转换方法 | |
JP4267385B2 (ja) | 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム | |
CN112100354B (zh) | 人机对话方法、装置、设备及存储介质 | |
CN108763535B (zh) | 信息获取方法及装置 | |
CN111310440B (zh) | 文本的纠错方法、装置和系统 | |
WO2013080406A1 (ja) | 対話システム、冗長メッセージ排除方法および冗長メッセージ排除プログラム | |
CN110347787B (zh) | 一种基于ai辅助面试场景的面试方法、装置及终端设备 | |
CN109857846B (zh) | 用户问句与知识点的匹配方法和装置 | |
CN110502610A (zh) | 基于文本语义相似度的智能语音签名方法、装置及介质 | |
TWI610294B (zh) | 語音辨識系統及其方法、詞彙建立方法與電腦程式產品 | |
CN111930792A (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
CN115497465A (zh) | 语音交互方法、装置、电子设备和存储介质 | |
CN110347833B (zh) | 一种多轮对话的分类方法 | |
Somogyi | The Application of Artificial Intelligence | |
Thomson et al. | N-best error simulation for training spoken dialogue systems | |
Williams | Zero Shot Intent Classification Using Long-Short Term Memory Networks. | |
US20210327415A1 (en) | Dialogue system and method of controlling the same | |
WO2021217866A1 (zh) | 用于ai智能面试的识别的方法、装置、计算机设备及存储介质 | |
CN116524926B (zh) | 一种用于在移动端通过语音控制生成业务表单的方法 | |
CN109344388A (zh) | 一种垃圾评论识别方法、装置及计算机可读存储介质 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |