CN114398896A - 信息录入方法、装置、电子设备及计算机可读存储介质 - Google Patents
信息录入方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN114398896A CN114398896A CN202210041621.9A CN202210041621A CN114398896A CN 114398896 A CN114398896 A CN 114398896A CN 202210041621 A CN202210041621 A CN 202210041621A CN 114398896 A CN114398896 A CN 114398896A
- Authority
- CN
- China
- Prior art keywords
- text
- user
- information entry
- user intention
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000003058 natural language processing Methods 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims description 60
- 238000012549 training Methods 0.000 claims description 49
- 238000012545 processing Methods 0.000 claims description 40
- 230000015654 memory Effects 0.000 claims description 31
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 230000006403 short-term memory Effects 0.000 claims description 4
- 230000007787 long-term memory Effects 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 230000006870 function Effects 0.000 description 20
- 238000005516 engineering process Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 241000282414 Homo sapiens Species 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种人工智能技术领域,提供一种信息录入方法、装置、电子设备及计算机可读存储介质,其中方法包括:通过自动语音识别对用户语音进行识别,以获取与所述用户语音相对应的用户意图;通过自然语言处理对所述用户意图进行文本实体提取,获取与所述用户意图相匹配的文本实体;从所述智能信息录入系统的备选选项中选择与所述文本实体相对应的选项,并将所述选项录入到所述智能信息录入系统中。本发明主要目的在于通过语音识别模块识别用户语音智能填写表单内容,提高信息录入效率。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种信息录入方法、装置、电子设备及计算机可读存储介质。
背景技术
现有信息录入系统对选项类的字段输入存在如下问题:当下拉列表选项较多时,用户通常需要反复滑动下拉列表,才能找到想要点选的选项,操作不方便。
针对此问题,目前常见的解决方案是:根据用户手动输入的文字对选项进行模糊匹配,返回最近似的选项。但是上述方案仍然存在需要打字输入文字的需要,给用户带来操作上的不方便。
为解决上述问题,本发明亟需提供一种基于语音识别的信息录入方法。
发明内容
本发明提供一种信息录入方法、装置、电子设备及计算机可读存储介质,其主要目的在于通过语音识别模块识别用户语音智能填写表单内容,提高信息录入效率。
为实现上述目的,本发明提供的一种信息录入方法,应用于电子设备,所述方法包括:
通过自动语音识别对用户语音进行识别,以获取与所述用户语音相对应的用户意图;
通过自然语言处理对所述用户意图进行文本实体提取,获取与所述用户意图相匹配的文本实体;
从所述智能信息录入系统的备选选项中选择与所述文本实体相对应的选项,并将所述选项录入到所述智能信息录入系统中。
可选地,所述通过自动语音识别对用户语音进行识别,以获取与所述用户语音相对应的用户意图,包括:
对用户语音进行特征提取,获取声学特征;
通过短时分析对所述声学特征进行分析,获取每个字的发音切分为声母和韵母;
通过声学模型对切分的声母和韵母进行处理,获取音素;
通过二元语法模型对所述音素进行处理,获取所述音素所对应的文本。
可选地,所述通过二元语法模型对所述音素进行处理,获取所述音素所对应的文本,包括:
根据构建的音素与汉字的映射关系表,对句子集合中的每个句子的字进行转换,得到迪卡尔积逐字集合;
通过二元语法模型对句子集合中每个句子的迪卡尔积逐字集合进行处理,获取每个句子的合理性;
将所述句子集合中合理性最高的句子作为所述音素所对应的文本。
可选地,采用如下公式获取每个句子的合理性:
其中,P(Wi)表示句子Wi对应的合理性;
Count(A1)表示汉字A1在语料集中出现的次数;
Count(A2,A1)表示语料集汉字A2在汉字A1后出现的次数。
可选地,所述通过自然语言处理对所述用户意图进行文本实体提取,获取与所述用户意图相匹配的文本实体,包括:
将所述信息录入系统中的备选选项、所述用户意图形成的文本以及与所述用户意图相对应的选项作为训练数据;
通过所述训练数据对构建的命名实体提取模型进行训练,生成训练好的命名实体提取模型;
将训练好的命名实体提取模型对所述用户意图进行文本实体提取,获取与所述用户意图相匹配的文本实体。
可选地,所述通过所述训练数据对构建的命名实体提取模型进行训练,生成训练好的命名实体提取模型,包括:
将所述用户意图形成的文本输入到所述命名实体提取模型的长短期记忆网络层;
所述长短期记忆网络层对所述用户意图形成的文本进行编码处理,获取特征向量;
将所述特征向量输入到所述命名实体提取模型的条件随机场层;
所述条件随机场层对所述特征向量进行预测处理,获取预测实体标签;
通过分类交叉熵对所述预测实体标签、预设实体标签进行处理,获取实体标签损失值;
通过所述分类交叉熵对所述长短期记忆网络层、所述条件随机场层进行迭代训练,当所述实体标签损失值收敛至预设范围,完成对所述命名实体提取模型的训练。
可选地,采用的分类交叉熵公式为:
其中,loss表示实体标签损失值,yn表示预测实体标签,y’n表示预设实体标签。
为了解决上述问题,本发明还提供一种信息录入装置,所述装置包括:
用户意图获取模块,用于通过所述自动语音识别对用户语音进行识别,以获取与所述用户语音相对应的用户意图;
文本实体获取模块,用于通过所述自然语言处理对所述用户意图进行文本实体提取,获取与所述用户意图相匹配的文本实体;
选项录入模块,用于从所述智能信息录入系统的备选选项中选择与所述文本实体相对应的选项,并将所述选项录入到所述智能信息录入系统中。
优选地,所述用户意图获取模块包括:
声学特征获取模块,用于对用户语音进行特征提取,获取声学特征;
声学分析模块,用于通过短时分析对所述声学特征进行分析,获取每个字的发音切分为声母和韵母;
音素获取模块,用于通过声学模型对切分的声母和韵母进行处理,获取音素;
文本获取模块,用于通过二元语法模型对所述音素进行处理,获取所述音素所对应的文本。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的信息录入方法的步骤。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的信息录入方法。
本发明实施例通过所述自动语音识别对用户语音进行识别,以获取与所述用户语音相对应的用户意图;通过所述自然语言处理模块对所述用户意图进行文本实体提取,获取与所述用户意图相匹配的文本实体;从所述智能信息录入系统的备选选项中选择与所述文本实体相对应的选项,并将所述选项录入到所述智能信息录入系统中。本发明主要目的在于通过语音识别模块识别用户语音智能填写表单内容,提高信息录入效率。
附图说明
图1为本发明一实施例提供的信息录入方法的流程示意图;
图2为本发明一实施例提供的信息录入装置的模块示意图;
图3为本发明一实施例提供的实现信息录入方法的电子设备的内部结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
在下面的描述中,许多具体的细节被阐述。然而,应当理解的是,本发明的实施例可以在没有这些具体细节的情况下实现。在其他实例中,众所周知的方法、结构、和技术没有被详细地示出,以免模糊对本说明书的理解。对“一个实施例”、“实施例”、“示例性实施例”、“各种实施例”等等的参考表示本发明所描述的该实施例可包括特定的特征、结构、或特性,但并不是每一个实施例都必须包括该特定特征、结构、或特性。此外,短语“在一个实施例中”的反复使用不一定是指同一个实施例,尽管有可能是。
如本文所使用的,除非另外指明,使用序数形容词“第一”、“第二”、“第三”等等来描述公共的物体仅表明类似物体的不同实例正被参考,并且不意图暗示如此描述的该物体必须依照给定的顺序,无论在时间上、空间上、顺序上还是任何其他的方式。
如本文所使用的,除非另外指明,术语“移动设备”和/或“设备”一般是指无线通信设备,并且更具体地指以下的一个或多个:便携式电子设备、电话(例如,蜂窝式电话、智能手机)、计算机(例如,膝上型电脑、平板电脑)、便携式媒体播放器、个人数字助理(PDA)、或具有联网能力的任何其他电子设备。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
机器学习(Machine Learning,简称ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
自动语音识别技术(Automatic Speech Recognition,简称ASR)是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。
本发明提供一种基于语音识别的信息录入方法。参照图1所示,为本发明一实施例提供的信息录入方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,信息录入方法,包括:
S1:通过所述自动语音识别对用户语音进行识别,以获取与所述用户语音相对应的用户意图;
S2:通过所述自然语言处理对所述用户意图进行文本实体提取,获取与所述用户意图相匹配的文本实体,其中,
将所述信息录入系统中的备选选项、所述用户意图形成的文本以及与所述用户意图相对应的选项作为训练数据;
通过所述训练数据对构建的命名实体提取模型进行训练,生成训练好的命名实体提取模型;
将训练好的命名实体提取模型对所述用户意图进行文本实体提取,获取与所述用户意图相匹配的文本实体;
S3:从所述智能信息录入系统的备选选项中选择与所述文本实体相对应的选项,并将所述选项录入到所述智能信息录入系统中。
在本发明的实施例中,智能信息录入系统采用浏览器-服务器结构,包含前端页面、后端API服务、语音识别模块。前端页面提供用户交互的界面,后端API服务支撑信息录入功能,语音识别模块用于识别客户语音并提供备选选项提示,用户根据提供的多个选项,选择与用户意图一致的选项。
在本发明的一个具体的实施例中,在传统表单界面的基础上加入语音识别模块,语音识别模块获取表单中所有的选项信息,以字段为单位训练意图识别模型;在填表界面,当用户开启语音识别功能时,智能信息录入系统对用户语音进行实时识别;当识别到与所述用户语音相对应的用户意图时,界面通过气泡提示、浮窗等显示方式展示备选选项,由用户选择符合意图的选项,完成对应字段的输入。
其中,用户在选择符合意图的选项时,可以手动选择,也可以语音选择,在采用语音选择时,以备选选项中的中间一个为默认的意图选项,通过语音输入“上一个”、“下一个”选择与与所述用户语音相对应的意图选项,然后确认即可。在具有应用,根据实际需求进行手动选择还是语音选择,在本发明中并不做具体限定。
在本发明的实施例中,将语音识别模块添加到智能信息录入系统中;其中,语音识别模块包括自动语音识别模块和自然语言处理模块;,语音识别模块包括自动语音识别(Automatic Speech Recongnition,ASR)模块、自然语言处理模块。自动语音识别模块将用户语音识别为用户意图自然语言处理模块对用户意图进行文本实体提取。
在步骤S1中,自动语音识别模块采用基于统计模式识别的语音识别系统,主要包括以下几个模块:信号处理及特征提取模块、声学模型、语言模型。通过所述自动语音识别对用户语音进行识别,获取与所述用户语音相对应的用户意图的过程如下:
S11:对用户语音进行特征提取,获取声学特征;
S12:通过短时分析对所述声学特征进行分析,获取每个字的发音切分为声母和韵母;
S13:通过声学模型对切分的声母和韵母进行处理,获取音素;
S14:通过n元语法(n-Gram)模型对所述音素进行处理,获取所述音素所对应的文本。
在本发明的实施例中,收到用户语音后,首先需要提取声学特征,声学特征提取是一个信息大幅度压缩的过程。其中,特征提取采用短时分析,即将连贯的语音信号切分为一小段语音信号进行分析。
在本发明的实施例中,采用右文相关声韵母模式(Right-Context-DependentInitial Final,RCDIF)将一个字的发音切分为声母和韵母两个部分。
其中,声学模型采用隐马尔科夫模型(Hidden Markov Model,HMM),完成语音到音节概率的计算,即:将特征提取模块的输出识别为音素,也就是说,通过隐马尔科夫模型对分析后的声学特征进行处理,得到音素。
在步骤S14中,所述通过n元语法(n-Gram)模型对所述音素进行处理,获取所述音素所对应的文字,包括:
S141:根据构建的音素与汉字的映射关系表,对句子集合中的每个句子的字进行转换,得到迪卡尔积逐字集合;
S142:通过二元语法模型对句子集合中每个句子的迪卡尔积逐字集合进行处理,获取每个句子的合理性;
S143:将所述句子集合中合理性最高的句子作为所述音素所对应的文本。
在本发明的实施例中,基于字典将音素转为汉字清单:建立音素到汉字的映射关系表,如“sh en1”对应“深、申、身、…”等。对于N个字句子,可以得到逐字集合C1…CN。基于逐字集合做笛卡尔积,则得到可能出现的X组句子集合W(W1,W2,…,WX)。
其中,通过二元语法模型,计算每个句子出现的合理性:二元模型表示一个字的出现仅与前面一个字相关,则句子Wi对应的合理性P(Wi),即句子Wi对应的合理性P(Wi)的公式为:
其中,Count(A1)表示汉字A1在语料集中出现的次数,Count(A2,A1)表示语料集汉字A2在汉字A1后出现的次数,语料集为基于目标意图(即智能信息录入系统的备选选项)构建的训练语料。
然后,得到输出文本:上述句子集合W中合理性最高的句子为语音模型输出的文本。
在步骤S2中,所述通过所述自然语言处理对所述用户意图进行文本实体提取,获取与所述用户意图相匹配的文本实体,包括:
S21:将所述信息录入系统中的备选选项、所述用户意图形成的文本以及与所述用户意图相对应的选项作为训练数据;
S22:通过所述训练数据对构建的命名实体提取模型进行训练,生成训练好的命名实体提取模型;
S23:将训练好的命名实体提取模型对所述用户意图进行文本实体提取,获取与所述用户意图相匹配的文本实体。
在本发明的实施例中,在步骤S22中,所述通过所述训练数据对构建的命名实体提取模型进行训练,生成训练好的命名实体提取模型,包括:
S221:将所述用户意图形成的文本输入到所述命名实体提取模型的长短期记忆网络层;
S222:所述长短期记忆网络层对所述用户意图形成的文本进行编码处理,获取特征向量;
S223:将所述特征向量输入到所述命名实体提取模型的条件随机场层;
S224:所述条件随机场层对所述特征向量进行预测处理,获取预测实体标签;
S225:通过分类交叉熵对所述预测实体标签、预设实体标签进行处理,获取实体标签损失值;
S226:通过所述分类交叉熵对所述长短期记忆网络层、所述条件随机场层进行迭代训练,当所述实体标签损失值收敛至预设范围,完成对所述命名实体提取模型的训练。
在本发明的实施例中,通过基于长短期记忆网络(Long Short-Term Memory,LSTM)和条件随机场(Conditional Random Field,CRF)构建命名实体提取模型(Named-Entity Recognition,NER)。其中,命名实体提取模型训练时采用Adam优化器进行训练,即:每一步迭代从训练数据集中随机抽取512条训练数据作为一个批次(Batch)进行训练;其中,损失函数采用分类交叉熵(Categorical Cross Entropy)。具体示例如下:,训练数据的实体标签为B-INT、I-INT、E-INT、O,B/I/E分别代表意图标签的开头、中间和结尾,O标签表示与意图无关的其他字。网络输入为意图对应的文本,如由意图标签“广东省”、“深圳市”组合成的训练语料“我住在广东省深圳市”会根据对应的打标为Y’n“O,O,O,B-INT,I-INT,E-INT,B-INT,I-INT,E-INT”。N个字的语句Xn经BiLSTM编码为N维向量Cn,向量Cn经过CRF处理得到预测的实体标签Yn。
其中,训练过程基于后向传输,通过分类交叉熵计算网络预测得到的实体标签Yn和期望得到的标签Y’n的差距,即:过分类交叉熵公式为:
其中,loss表示实体标签损失值,yn表示预测实体标签,y’n表示预设实体标签。
在本发明的实施例中,将梯度逐层往前回传,并根据每层的梯度,结合Adam优化器调整得到的步长,调整网络参数,以完成训练。
在步骤S3中,从所述智能信息录入系统的备选选项中选择与所述文本实体相对应的选项,并将所述选项录入到所述智能信息录入系统,包括:
S31:检索所述智能信息录入系统的备选选项;
S32:将所述备选选项中与所述文本实体相对应的选项进行提示处理;
S33:将提示信息反馈给用户,根据所述提示信息将相应的备选选项录入到所述智能录入系统中。其中,提示信息包括:气泡、浮窗等。
综上所述,本发明基于智能语音识别录入方法,用户可以在信息录入的过程中,尽可能少的输入文字、滑动候选列表,从而提升用户体验,并且通过气泡提示,进一步降低识别错误或用户口误对输入过程的干扰。
本发明实施例将语音识别模块添加到智能信息录入系统中;其中,所述语音识别模块包括自动语音识别模块和自然语言处理模块;通过所述自动语音识别模块对用户语音进行识别,以获取与所述用户语音相对应的用户意图;通过所述自然语言处理模块对所述用户意图进行文本实体提取,获取与所述用户意图相匹配的文本实体;从所述智能信息录入系统的备选选项中选择与所述文本实体相对应的选项,并将所述选项录入到所述智能信息录入系统中。本发明主要目的在于通过语音识别模块识别用户语音智能填写表单内容,提高信息录入效率。
如图2所示,是本发明信息录入装置的功能模块图。本发明所述基于语音识别的信息录入装置100可以安装于电子设备中。根据实现的功能,所述信息录入装置100可以包括:用户意图获取模块101、文本实体获取模块102和选项录入模块103。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
用户意图获取模块101,用于通过所述自动语音识别对用户语音进行识别,以获取与所述用户语音相对应的用户意图;
文本实体获取模块102,用于通过所述自然语言处理对所述用户意图进行文本实体提取,获取与所述用户意图相匹配的文本实体;
选项录入模块103,用于从所述智能信息录入系统的备选选项中选择与所述文本实体相对应的选项,并将所述选项录入到所述智能信息录入系统中。
可选地,用户意图获取模块101包括:声学特征获取模块、声学分析模块、音素获取模块和文本获取模块。
其中,声学特征获取模块,用于对用户语音进行特征提取,获取声学特征;
声学分析模块,用于通过短时分析对所述声学特征进行分析,获取每个字的发音切分为声母和韵母;
音素获取模块,用于通过声学模型对切分的声母和韵母进行处理,获取音素;
文本获取模块,用于通过二元语法模型对所述音素进行处理,获取所述音素所对应的文本。
可选地,文本实体获取模块102包括:训练数据获取模块、模型训练模块和文本实体提取模块。
其中,训练数据获取模块,用于将所述信息录入系统中的备选选项、所述用户意图形成的文本以及与所述用户意图相对应的选项作为训练数据;
模型训练模块,用于通过所述训练数据对构建的命名实体提取模型进行训练,生成训练好的命名实体提取模型;
文本实体提取模块,用于将训练好的命名实体提取模型对所述用户意图进行文本实体提取,获取与所述用户意图相匹配的文本实体。
本发明实施例将语音识别模块添加到智能信息录入系统中;其中,所述语音识别模块包括自动语音识别模块和自然语言处理模块;通过所述自动语音识别模块对用户语音进行识别,以获取与所述用户语音相对应的用户意图;通过所述自然语言处理模块对所述用户意图进行文本实体提取,获取与所述用户意图相匹配的文本实体;从所述智能信息录入系统的备选选项中选择与所述文本实体相对应的选项,并将所述选项录入到所述智能信息录入系统中。本发明主要目的在于通过语音识别模块识别用户语音智能填写表单内容,提高信息录入效率。
如图3所示,是本发明实现信息录入方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如信息录入程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如数据稽核程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。存储器可以存储内容,该内容可由电子设备显示或被发送到其他设备(例如,耳机)以由其他设备来显示或播放。存储器还可以存储从其他设备接收的内容。该来自其他设备的内容可由电子设备显示、播放、或使用,以执行任何必要的可由电子设备和/或无线接入点中的计算机处理器或其他组件实现的任务或操作。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如数据稽核程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。电子还可包括芯片组(未示出),其用于控制一个或多个处理器与用户设备的其他组件中的一个或多个之间的通信。在特定的实施例中,电子设备可基于架构或架构,并且处理器和芯片集可来自处理器和芯片集家族。该一个或多个处理器104还可包括一个或多个专用集成电路(ASIC)或专用标准产品(ASSP),其用于处理特定的数据处理功能或任务。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
此外,网络和I/O接口可包括一个或多个通信接口或网络接口设备,以提供经由网络(未示出)在电子设备和其他设备(例如,网络服务器)之间的数据传输。通信接口可包括但不限于:人体区域网络(BAN)、个人区域网络(PAN)、有线局域网(LAN)、无线局域网(WLAN)、无线广域网(WWAN)、等等。用户设备102可以经由有线连接耦合到网络。然而,无线系统接口可包括硬件或软件以广播和接收消息,其使用Wi-Fi直连标准和/或IEEE 802.11无线标准、蓝牙标准、蓝牙低耗能标准、Wi-Gig标准、和/或任何其他无线标准和/或它们的组合。
无线系统可包括发射器和接收器或能够在由IEEE 802.11无线标准所支配的操作频率的广泛范围内操作的收发器。通信接口可以利用声波、射频、光学、或其他信号来在电子设备与其他设备(诸如接入点、主机、服务器、路由器、读取设备、和类似物)之间交换数据。网络118可包括但不限于:因特网、专用网络、虚拟专用网络、无线广域网、局域网、城域网、电话网络、等等。
显示器可包括但不限于液晶显示器、发光二极管显示器、或由在美国马萨诸塞州剑桥城的E Ink公司(E Ink Corp.of Cambridge,Massachusetts)所制造的E-InkTM显示器。该显示器可用于将内容以文本、图像、或视频的形式显示给用户。在特定的实例中,该显示器还可以作为触控屏显示器操作,其可以使得用户能够藉由使用某些手指或手势来触摸屏幕以启动命令或操作。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备3的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的信息录入程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
通过自动语音识别对用户语音进行识别,以获取与所述用户语音相对应的用户意图;
通过自然语言处理对所述用户意图进行文本实体提取,获取与所述用户意图相匹配的文本实体,其中,
将所述信息录入系统中的备选选项、所述用户意图形成的文本以及与所述用户意图相对应的选项作为训练数据;
通过所述训练数据对构建的命名实体提取模型进行训练,生成训练好的命名实体提取模型;
将训练好的命名实体提取模型对所述用户意图进行文本实体提取,获取与所述用户意图相匹配的文本实体;
从所述智能信息录入系统的备选选项中选择与所述文本实体相对应的选项,并将所述选项录入到所述智能信息录入系统中。
具体地,所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。需要强调的是,为进一步保证上述每组待处理语义单元的相似度语义处理结果的私密和安全性,上述每组待处理语义单元的相似度语义处理还可以存储于一区块链的节点中。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明的实施例中,计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的信息录入方法的步骤,具体方法如下:
通过自动语音识别对用户语音进行识别,以获取与所述用户语音相对应的用户意图;
通过自然语言处理对所述用户意图进行文本实体提取,获取与所述用户意图相匹配的文本实体,其中,
将所述信息录入系统中的备选选项、所述用户意图形成的文本以及与所述用户意图相对应的选项作为训练数据;
通过所述训练数据对构建的命名实体提取模型进行训练,生成训练好的命名实体提取模型;
将训练好的命名实体提取模型对所述用户意图进行文本实体提取,获取与所述用户意图相匹配的文本实体;
从所述智能信息录入系统的备选选项中选择与所述文本实体相对应的选项,并将所述选项录入到所述智能信息录入系统中。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
以上参考根据本发明的示例性实施例的系统和方法和/或计算机程序产品的框图和流程图描述了本发明的某些实施例。应当理解的是,框图和流程图中的一个或多个方框、以及在框图和流程图中的方框的组合,可以分别由计算机可执行程序指令实现。同样地,根据本发明的一些实施例,框图和流程图中的一些方框可以不必按照所呈现的顺序执行,或者甚至可以完全不需要执行。
这些计算机可执行程序指令可以被加载到通用计算机、专用计算机、处理器、或其他可编程数据处理装置上以产生特定机器,使得在计算机、处理器、或其他可编程数据处理装置上执行的指令创建用于实现在流程图方框或多个方框中所指定的一个或多个功能的构件。这些计算机程序产品还可以存储在计算机可读存储器中,其可以指导计算机或其他可编程数据处理装置以特定的方式运行,使得存储在计算机可读存储器中的指令产生制品,该制品包括实现在流程图的方框或多个方框中指定的一个或多个功能的指令构件。例如,本发明的实施例可提供计算机程序产品,其包括其中包含有计算机可读程序代码或程序指令的计算机可用介质,所述计算机可读程序代码适于被执行以实现在流程图方框或多个方框中指定的一个或多个功能。计算机程序指令还可以被加载到计算机或其他可编程数据处理装置上,以致使一系列操作元素或步骤在计算机或其他可编程装置上执行易产生计算机实现的程序,使得在计算机或其他可编程装置上执行的指令提供用于实现在流程图方框或多个方框中指定的功能的元素或步骤。
相应地,框图或流程图中的方框支持用以执行指定功能的构件的组合、用于执行指定功能的元素或步骤与用于执行指定功能的程序指令构件的组合。还应当理解的是,框图和流程图中的每个方框以及框图和流程图中的方框的组合可由执行指定功能、元素或步骤的专用的基于硬件的计算机系统实现,或由专用硬件或计算机指令的组合实现。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
虽然本发明的某些实施例已经结合目前被认为是最实用的且各式各样的实施例进行了描述,但应当理解,本发明并不限于所公开的实施例,而是意在覆盖包含在所附权利要求书的范围之内的各种修改和等价布置。虽然本文采用了特定的术语,但它们仅以一般性和描述性的意义使用,而不是用于限制的目的。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种信息录入方法,应用于电子设备,其特征在于,所述方法包括:
通过自动语音识别对用户语音进行识别,以获取与所述用户语音相对应的用户意图;
通过自然语言处理对所述用户意图进行文本实体提取,获取与所述用户意图相匹配的文本实体,其中,
将所述信息录入系统中的备选选项、所述用户意图形成的文本以及与所述用户意图相对应的选项作为训练数据;
通过所述训练数据对构建的命名实体提取模型进行训练,生成训练好的命名实体提取模型;
将训练好的命名实体提取模型对所述用户意图进行文本实体提取,获取与所述用户意图相匹配的文本实体;
从所述智能信息录入系统的备选选项中选择与所述文本实体相对应的选项,并将所述选项录入到所述智能信息录入系统中。
2.如权利要求1所述的信息录入方法,其特征在于,所述通过自动语音识别对用户语音进行识别,以获取与所述用户语音相对应的用户意图,包括:
对用户语音进行特征提取,获取声学特征;
通过短时分析对所述声学特征进行分析,获取每个字的发音切分为声母和韵母;
通过声学模型对切分的声母和韵母进行处理,获取音素;
通过二元语法模型对所述音素进行处理,获取所述音素所对应的文本。
3.如权利要求2所述的信息录入方法,其特征在于,所述通过二元语法模型对所述音素进行处理,获取所述音素所对应的文本,包括:
根据构建的音素与汉字的映射关系表,对句子集合中的每个句子的字进行转换,得到迪卡尔积逐字集合;
通过二元语法模型对句子集合中每个句子的迪卡尔积逐字集合进行处理,获取每个句子的合理性;
将所述句子集合中合理性最高的句子作为所述音素所对应的文本。
5.如权利要求1所述的信息录入方法,其特征在于,所述通过所述训练数据对构建的命名实体提取模型进行训练,生成训练好的命名实体提取模型,包括:
将所述用户意图形成的文本输入到所述命名实体提取模型的长短期记忆网络层;
所述长短期记忆网络层对所述用户意图形成的文本进行编码处理,获取特征向量;
将所述特征向量输入到所述命名实体提取模型的条件随机场层;
所述条件随机场层对所述特征向量进行预测处理,获取预测实体标签;
通过分类交叉熵对所述预测实体标签、预设实体标签进行处理,获取实体标签损失值;
通过所述分类交叉熵对所述长短期记忆网络层、所述条件随机场层进行迭代训练,当所述实体标签损失值收敛至预设范围,完成对所述命名实体提取模型的训练。
7.一种信息录入装置,其特征在于,所述装置包括:
用户意图获取模块,用于通过自动语音识别对用户语音进行识别,以获取与所述用户语音相对应的用户意图;
文本实体获取模块,用于通过自然语言处理对所述用户意图进行文本实体提取,获取与所述用户意图相匹配的文本实体,其中,
将所述信息录入系统中的备选选项、所述用户意图形成的文本以及与所述用户意图相对应的选项作为训练数据;
通过所述训练数据对构建的命名实体提取模型进行训练,生成训练好的命名实体提取模型;
将训练好的命名实体提取模型对所述用户意图进行文本实体提取,获取与所述用户意图相匹配的文本实体;
选项录入模块,用于从所述智能信息录入系统的备选选项中选择与所述文本实体相对应的选项,并将所述选项录入到所述智能信息录入系统中。
8.如权利要求7所述的信息录入装置,其特征在于,
所述用户意图获取模块包括:
声学特征获取模块,用于对用户语音进行特征提取,获取声学特征;
声学分析模块,用于通过短时分析对所述声学特征进行分析,获取每个字的发音切分为声母和韵母;
音素获取模块,用于通过声学模型对切分的声母和韵母进行处理,获取音素;
文本获取模块,用于通过二元语法模型对所述音素进行处理,获取所述音素所对应的文本。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的信息录入方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的信息录入方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210041621.9A CN114398896A (zh) | 2022-01-14 | 2022-01-14 | 信息录入方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210041621.9A CN114398896A (zh) | 2022-01-14 | 2022-01-14 | 信息录入方法、装置、电子设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114398896A true CN114398896A (zh) | 2022-04-26 |
Family
ID=81230667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210041621.9A Pending CN114398896A (zh) | 2022-01-14 | 2022-01-14 | 信息录入方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114398896A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252167A (zh) * | 2023-11-20 | 2023-12-19 | 青岛港国际股份有限公司 | 一种基于语音识别进行资产故障智能提报的方法和系统 |
-
2022
- 2022-01-14 CN CN202210041621.9A patent/CN114398896A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117252167A (zh) * | 2023-11-20 | 2023-12-19 | 青岛港国际股份有限公司 | 一种基于语音识别进行资产故障智能提报的方法和系统 |
CN117252167B (zh) * | 2023-11-20 | 2024-02-06 | 青岛港国际股份有限公司 | 一种基于语音识别进行资产故障智能提报的方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109271631B (zh) | 分词方法、装置、设备及存储介质 | |
CN111914568B (zh) | 文本修辞句的生成方法、装置、设备及可读存储介质 | |
WO2022057712A1 (zh) | 电子设备及其语义解析方法、介质和人机对话系统 | |
CN112185348B (zh) | 多语种语音识别方法、装置及电子设备 | |
CN112395385B (zh) | 基于人工智能的文本生成方法、装置、计算机设备及介质 | |
CN113205817A (zh) | 语音语义识别方法、系统、设备及介质 | |
WO2016004266A2 (en) | Generating computer responses to social conversational inputs | |
US11954097B2 (en) | Intelligent knowledge-learning and question-answering | |
WO2021063089A1 (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
CN111144102B (zh) | 用于识别语句中实体的方法、装置和电子设备 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN114416943B (zh) | 对话模型的训练方法、装置、电子设备及存储介质 | |
CN114662484A (zh) | 语义识别方法、装置、电子设备及可读存储介质 | |
CN112905736A (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN113326702A (zh) | 语义识别方法、装置、电子设备及存储介质 | |
CN113761190A (zh) | 文本识别方法、装置、计算机可读介质及电子设备 | |
CN113850078B (zh) | 基于机器学习的多意图识别方法、设备及可读存储介质 | |
CN114385817A (zh) | 实体关系的识别方法、设备及可读存储介质 | |
CN116842168B (zh) | 跨领域问题处理方法、装置、电子设备及存储介质 | |
CN114020886A (zh) | 语音意图识别方法、装置、设备及存储介质 | |
Shafiq et al. | Enhancing Arabic Aspect-Based Sentiment Analysis Using End-to-End Model | |
CN114398896A (zh) | 信息录入方法、装置、电子设备及计算机可读存储介质 | |
CN113935331A (zh) | 异常语义截断检测方法、装置、设备及介质 | |
CN113254814A (zh) | 网络课程视频打标签方法、装置、电子设备及介质 | |
CN117290515A (zh) | 文本标注模型的训练方法、文生图方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |