CN112364212A - 一种基于近似音识别的语音人名识别方法 - Google Patents
一种基于近似音识别的语音人名识别方法 Download PDFInfo
- Publication number
- CN112364212A CN112364212A CN202011218654.3A CN202011218654A CN112364212A CN 112364212 A CN112364212 A CN 112364212A CN 202011218654 A CN202011218654 A CN 202011218654A CN 112364212 A CN112364212 A CN 112364212A
- Authority
- CN
- China
- Prior art keywords
- names
- pinyin
- voice
- name
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 15
- 230000008520 organization Effects 0.000 claims abstract description 16
- 238000012790 confirmation Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000006978 adaptation Effects 0.000 claims description 3
- 238000013518 transcription Methods 0.000 claims description 3
- 230000035897 transcription Effects 0.000 claims description 3
- 239000000047 product Substances 0.000 abstract description 8
- 238000006243 chemical reaction Methods 0.000 abstract description 2
- 238000013507 mapping Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 abstract description 2
- 239000013589 supplement Substances 0.000 abstract description 2
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 241001672694 Citrus reticulata Species 0.000 description 4
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/086—Recognition of spelled words
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于近似音识别的语音人名识别方法,其具体操作流程包含以下步骤:A、用户语音命令输入;B、平台语音转初始人名拼音;C、初始人名拼音后台查询;D、组织机构人名转拼音;E、提供备选人名列表;F、用户主动选择确认,本方法是对人员名称进行拼音转换,并根据人名文字个数和文字的首字母A‑Z进行排序处理,在正则匹配时就能极大概率抽取人名拼音,通过拼音声母、韵母的容错映射,在一定基础上又增加了识别率,且对市面上语音识别的产品进行技术上的补充,除了能匹配模糊语句,还能将文字中的多个人员名称进行抽取,大大提高了识别效率。
Description
技术领域
本发明涉及互联网应用技术领域,具体为一种基于近似音识别的语音人名识别方法。
背景技术
人工智能语音识别的准确率主要依赖大数据,但是对人名的识别是语音识别的一个难题,需要提前将需要识别的人名作为一组文字范本,通过智能技术将人名识别训练成一个模型,用户调用模型来达到识别的目的;由于人名的文字排列组合自由度非常高,对于一句话中出现的多个人名,无法一次性全部提取出来,导致在使用人名的场景,用户和智能机器人需要多次对话才能明确用户要找的人员名称,导致交互效果差。
模型更新不及时,对于一个组织机构,人员流动性大,人员的名称也在随时更新,如果语言识别模型不及时更新,则会导致新到的人员名称未及时训练进模板;再者,模型的训练是一个相当消耗资源的事情,需要计算机通过复杂的算法才能重新生成模型;这样,当需要识别新增人员时,由于模型更新不及时的缺陷,导致语音无法识别到此人,对于一个以组织架构为核心的软件来说,这样的结果是不可接受的,会大大降低用户的使用体验。
非标准普通话发音识别率低:现在市面上的语音识别产品,大多是以标准普通话作为范本,部分稍强大的产品也只提供了有限的几种口音;协同软件用户来自全国各地,由于地域性原因,用户发出的语音不一定是标准普通话,甚至有口齿模糊的情况,这样也会导致语音识别人名的准确率大大降低。
人名的数量是不确定的并且难以统计,语料库中的文本数量需要随时间的增加而增加,这就需要一个机构专门来维护,显然这样的维护是需要大量的人力物力,在实际操作中是不现实的。
一句话中如果存在多个人员名称,无法直接提取出来所有人名,导致需要多次对话才能适配用户需要查询的多个人员。
第三方AI辅助技术厂商,虽然对文字能进行语音识别的能力,但是对口音的识别还是不准确的,其识别的文字只能对照普通话进行文字匹配,并无更近一步识别准确的补充机制;即使有些厂商有四川话、广东话的产品,也只能针对特定场景,并无通用策略。
现有产品对多个人员名称无法识别提取,人员名称是一个自由度非常高的文字组合,从一句话中提取多个人员名称难度很大,对于机器来说都是连着一起的文字,不会去区分多个人员名称的。
所以综上所述,如何解决以上提出的问题已经成为了当前急需解决的难题。
发明内容
本发明的目的在于提供一种对市面上语音识别的产品进行技术上的补充,除了能匹配模糊语句,还能将文字中的多个人员名称进行抽取,大大提高了识别效率的语音人名识别方法。
为实现上述目的,本发明提供如下技术方案:一种基于近似音识别的语音人名识别方法其具体操作流程包含以下步骤:
A、用户语音命令输入;
B、平台语音转初始人名拼音;
C、初始人名拼音后台查询;
D、组织机构人名转拼音;
E、提供备选人名列表;
F、用户主动选择确认。
作为优选,根据步骤A用户语音命令输入:
a、用户打开语音记录识别设备;
b、完整输入语音信息指令;
c、重复播报语音内容,确认输入信息指令。
作为优选,根据步骤B平台语音转初始人名拼音:
a、根据输入的语音信息指令进行模糊语音识别;
b、配合方言及输入习惯记录语音识别出的指令信息。
作为优选,根据步骤C初始人名拼音后台查询:
a、OA系统将组织机构中所有人员名称获取后转换成拼音格式;
b、自动将人名信息及可能人名信息进行排序。
作为优选,根据步骤D组织机构人名转拼音:
a、根据识别的人名信息及可能人名信息匹配组织机构人名进行筛选;
b、对筛选结果进行拼音结果排序。
作为优选,根据步骤E提供备选人名列表:
a、多文字人名排在前面;
b、转换后的人名信息拼音字母按照A-Z的顺序排列;
c、将人名拼音转换成正则表达式数据。
d、将用户输入的语音文字通过转拼音工具,将所有文字进行模糊适配;
e、使用后台生成的人名拼音凭证,将人名拼音抽取出来,调用组织机构接口,将人名查询出来;
f、如果匹配多个人名,则列出人名列表,让用户进行选择。
作为优选,根据步骤F用户主动选择确认:
a、通过显示屏幕显示筛选结果列表;
b、语音提示辅助使用者确认生成的信息;
c、确认后提取人名信息及其附加资料。
与现有技术相比,本发明的有益效果是:
(1)本发明对市面上语音识别的产品进行技术上的补充,除了能匹配模糊语句,还能将文字中的多个人员名称进行抽取,大大提高了识别率。
(2)本发明关键点是对人员名称进行拼音转换,并根据人名文字个数和人名文字首字母A-Z进行排序处理,在正则匹配时就能极大概率抽取人名拼音;通过拼音声母、韵母的容错映射,在一定基础上又增加了识别率,提高了语音识别的实用性和精确性。。
附图说明
图1为本发明运作流程结构示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于近似音识别的语音人名识别方法其具体操作流程包含以下步骤:
A、用户语音命令输入;
B、平台语音转初始人名拼音;
C、初始人名拼音后台查询;
D、组织机构人名转拼音;
E、提供备选人名列表;
F、用户主动选择确认。
根据步骤A用户语音命令输入:
a、用户打开语音记录识别设备;
b、完整输入语音信息指令;
c、重复播报语音内容,确认输入信息指令。
根据步骤B平台语音转初始人名拼音:
a、根据输入的语音信息指令进行模糊语音识别;
b、配合方言及输入习惯记录语音识别出的指令信息。
根据步骤C初始人名拼音后台查询:
a、OA系统将组织机构中所有人员名称获取后转换成拼音格式;
b、自动将人名信息及可能人名信息进行排序。
根据步骤D组织机构人名转拼音:
a、根据识别的人名信息及可能人名信息匹配组织机构人名进行筛选;
b、对筛选结果进行拼音结果排序。
根据步骤E提供备选人名列表:
a、多文字人名排在前面;
b、转换后的人名信息拼音字母按照A-Z的顺序排列;
c、将人名拼音转换成正则表达式数据。
d、将用户输入的语音文字通过转拼音工具,将所有文字进行模糊适配;
e、使用后台生成的人名拼音凭证,将人名拼音抽取出来,调用组织机构接口,将人名查询出来;
f、如果匹配多个人名,则列出人名列表,让用户进行选择。
根据步骤F用户主动选择确认:
a、通过显示屏幕显示筛选结果列表;
b、语音提示辅助使用者确认生成的信息;
c、确认后提取人名信息及其附加资料。
上述实施例只是本发明的较佳实施例,并不是对本发明技术方案的限制,只要是不经过创造性劳动即可在上述实施例的基础上实现的技术方案,均应视为落入本发明专利的权利保护范围内。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (7)
1.一种基于近似音识别的语音人名识别方法,其特征在于:其具体操作流程包含以下步骤:
A、用户语音命令输入;
B、平台语音转初始人名拼音;
C、初始人名拼音后台查询;
D、组织机构人名转拼音;
E、提供备选人名列表;
F、用户主动选择确认。
2.根据权利要求1所述的一种基于近似音识别的语音人名识别方法,其特征在于:所述根据步骤A用户语音命令输入:
a、用户打开语音记录识别设备;
b、完整输入语音信息指令;
c、重复播报语音内容,确认输入信息指令。
3.根据权利要求1所述的一种基于近似音识别的语音人名识别方法,其特征在于:所述根据步骤B平台语音转初始人名拼音:
a、根据输入的语音信息指令进行模糊语音识别;
b、配合方言及输入习惯记录语音识别出的指令信息。
4.根据权利要求1所述的一种基于近似音识别的语音人名识别方法,其特征在于:所述根据步骤C初始人名拼音后台查询:
a、OA系统将组织机构中所有人员名称获取后转换成拼音格式;
b、自动将人名信息及可能人名信息进行排序。
5.根据权利要求1所述的一种基于近似音识别的语音人名识别方法,其特征在于:所述根据步骤D组织机构人名转拼音:
a、根据识别的人名信息及可能人名信息匹配组织机构人名进行筛选;
b、对筛选结果进行拼音结果排序。
6.根据权利要求1所述的一种基于近似音识别的语音人名识别方法,其特征在于:所述根据步骤E提供备选人名列表:
a、多文字人名排在前面;
b、转换后的人名信息拼音字母按照A-Z的顺序排列;
c、将人名拼音转换成正则表达式数据。
d、将用户输入的语音文字通过转拼音工具,将所有文字进行模糊适配;
e、使用后台生成的人名拼音凭证,将人名拼音抽取出来,调用组织机构接口,将人名查询出来;
f、如果匹配多个人名,则列出人名列表,让用户进行选择。
7.根据权利要求1所述的一种基于近似音识别的语音人名识别方法,其特征在于:所述根据步骤F用户主动选择确认:
a、通过显示屏幕显示筛选结果列表;
b、语音提示辅助使用者确认生成的信息;
c、确认后提取人名信息及其附加资料。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011218654.3A CN112364212A (zh) | 2020-11-04 | 2020-11-04 | 一种基于近似音识别的语音人名识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011218654.3A CN112364212A (zh) | 2020-11-04 | 2020-11-04 | 一种基于近似音识别的语音人名识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112364212A true CN112364212A (zh) | 2021-02-12 |
Family
ID=74514048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011218654.3A Pending CN112364212A (zh) | 2020-11-04 | 2020-11-04 | 一种基于近似音识别的语音人名识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364212A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113241078A (zh) * | 2021-05-10 | 2021-08-10 | 杭州魔点科技有限公司 | 基于考勤机的语音识别的方法和系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140379335A1 (en) * | 2013-06-21 | 2014-12-25 | Tencent Technology (Shenzhen) Company Limited | Method and device of matching speech input to text |
CN107016994A (zh) * | 2016-01-27 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置 |
CN109243439A (zh) * | 2018-09-17 | 2019-01-18 | 华中科技大学同济医学院附属协和医院 | 新型医疗床的语音操作方法 |
CN109671436A (zh) * | 2018-12-07 | 2019-04-23 | 陈包容 | 智能语音识别通讯录联系人人名的方法 |
CN109688271A (zh) * | 2019-01-16 | 2019-04-26 | 深圳壹账通智能科技有限公司 | 联系人信息输入的方法、装置及终端设备 |
CN110164435A (zh) * | 2019-04-26 | 2019-08-23 | 平安科技(深圳)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN110827808A (zh) * | 2019-12-06 | 2020-02-21 | 北京明略软件系统有限公司 | 语音识别方法、装置、电子设备和计算机可读存储介质 |
CN111540353A (zh) * | 2020-04-16 | 2020-08-14 | 重庆农村商业银行股份有限公司 | 一种语义理解方法、装置、设备及存储介质 |
-
2020
- 2020-11-04 CN CN202011218654.3A patent/CN112364212A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140379335A1 (en) * | 2013-06-21 | 2014-12-25 | Tencent Technology (Shenzhen) Company Limited | Method and device of matching speech input to text |
CN107016994A (zh) * | 2016-01-27 | 2017-08-04 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置 |
CN109243439A (zh) * | 2018-09-17 | 2019-01-18 | 华中科技大学同济医学院附属协和医院 | 新型医疗床的语音操作方法 |
CN109671436A (zh) * | 2018-12-07 | 2019-04-23 | 陈包容 | 智能语音识别通讯录联系人人名的方法 |
CN109688271A (zh) * | 2019-01-16 | 2019-04-26 | 深圳壹账通智能科技有限公司 | 联系人信息输入的方法、装置及终端设备 |
CN110164435A (zh) * | 2019-04-26 | 2019-08-23 | 平安科技(深圳)有限公司 | 语音识别方法、装置、设备及计算机可读存储介质 |
CN110827808A (zh) * | 2019-12-06 | 2020-02-21 | 北京明略软件系统有限公司 | 语音识别方法、装置、电子设备和计算机可读存储介质 |
CN111540353A (zh) * | 2020-04-16 | 2020-08-14 | 重庆农村商业银行股份有限公司 | 一种语义理解方法、装置、设备及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113241078A (zh) * | 2021-05-10 | 2021-08-10 | 杭州魔点科技有限公司 | 基于考勤机的语音识别的方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109255113B (zh) | 智能校对系统 | |
US8498857B2 (en) | System and method for rapid prototyping of existing speech recognition solutions in different languages | |
CN101447185B (zh) | 一种基于内容的音频快速分类方法 | |
CN108364632B (zh) | 一种具备情感的中文文本人声合成方法 | |
JP5330450B2 (ja) | テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル | |
KR101263332B1 (ko) | 모바일 기기에서 사용자 상호작용을 이용한 자동 번역 장치 및 그 방법 | |
CN108984529A (zh) | 实时庭审语音识别自动纠错方法、存储介质及计算装置 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN101326572A (zh) | 具有巨大词汇量的语音识别系统 | |
CN111341305A (zh) | 一种音频数据标注方法、装置及系统 | |
CN111611382A (zh) | 话术模型训练方法、对话信息生成方法及装置、系统 | |
US20130173251A1 (en) | Electronic device and natural language analysis method thereof | |
CN111445898A (zh) | 语种识别方法、装置、电子设备和存储介质 | |
CN117637097A (zh) | 基于大模型的门诊问诊对话生成电子病历的方法及系统 | |
CN116166688A (zh) | 基于自然语言交互的业务数据检索方法、系统及处理设备 | |
CN115455982A (zh) | 对话处理方法、装置、电子设备及存储介质 | |
CN112364212A (zh) | 一种基于近似音识别的语音人名识别方法 | |
CN113505609A (zh) | 一种一键式多语言会议辅助翻译方法及具有该方法的设备 | |
CN111581338B (zh) | 一种农业技术服务机器人人机融合咨询问答方法及系统 | |
CN112734604A (zh) | 一种提供多模态智能报案的装置及其笔录生成方法 | |
CN112201253A (zh) | 文字标记方法、装置、电子设备及计算机可读存储介质 | |
CN111914078A (zh) | 数据处理方法、装置 | |
CN104424942A (zh) | 一种提高文字语音输入准确率的方法 | |
CN116129868A (zh) | 一种结构化画本的生成方法和生成系统 | |
CN1121015C (zh) | 盲人用的汉语智能计算机系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210212 |