CN111627445A - 一种用于场地或人员的匹配方法和系统 - Google Patents

一种用于场地或人员的匹配方法和系统 Download PDF

Info

Publication number
CN111627445A
CN111627445A CN202010457458.5A CN202010457458A CN111627445A CN 111627445 A CN111627445 A CN 111627445A CN 202010457458 A CN202010457458 A CN 202010457458A CN 111627445 A CN111627445 A CN 111627445A
Authority
CN
China
Prior art keywords
information
matching
text
target template
character information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010457458.5A
Other languages
English (en)
Other versions
CN111627445B (zh
Inventor
陈佳期
陈旭
李密
颜茂春
陈嘉华
罗伟华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Strait Zhihui Technology Co ltd
Original Assignee
Fujian Strait Zhihui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Strait Zhihui Technology Co ltd filed Critical Fujian Strait Zhihui Technology Co ltd
Priority to CN202010457458.5A priority Critical patent/CN111627445B/zh
Publication of CN111627445A publication Critical patent/CN111627445A/zh
Application granted granted Critical
Publication of CN111627445B publication Critical patent/CN111627445B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明给出了一种用于场地或人员的匹配方法和系统,包括将采集到的语音信息转换成文字信息;将所述采集到的文字信息转换成拼音,对所述拼音中的声母和韵母分别与目标模板集所包含的文本中的声母和韵母进行相似度匹配,将按照划分的相似度匹配等级进行评分得出最终分数;将按照划分的相似度匹配等级进行评分得出最终分数,并且对不在设置阈值内的语音内容通过字典查询判断置信度是否在设置的范围内进一步修正提高语音识别的正确率,针对平翘舌音、边鼻音、前后鼻音不分的情况进行系统自动修正匹配,提高系统辨识度,以达到用户查询的目的。

Description

一种用于场地或人员的匹配方法和系统
技术领域
本发明涉及语音识别技术领域,尤其是一种用于场地或人员的匹配方法和系统。
背景技术
语音识别作为信息技术中一种人机接口的关键技术,具有重要的研究意义和广泛的应用价值。语言是人类相互交流最常用、最有效、最重要和最方便的通信形式,语音是语言的声学表现,与机器进行语音交流是人类一直以来的梦想。随着计算机技术的飞速发展,语音识别技术也取得突破性的成就,人与机器用自然语言进行对话的梦想逐步接近实现。语音识别技术的应用范围极为广泛,不仅涉及到日常生活的方方面面,在军事领域也发挥着极其重要的作用。它是信息社会朝着智能化和自动化发展的关键技术,使人们对信息的处理和获取更加便捷,从而提高人们的工作效率。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
常见的语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。随着我国科学技术的不断深入与发展,神经网络逐渐与语音识别技术联系的越来越密切。在传统的语音识别技术中,模板匹配法是其主要的操作方法,而在现代的语音识别技术中,神经网络已成为主要的发展趋势。音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母和韵母构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。
目前许多语音识别软件或者系统都是基于标准的发音来识别的,内嵌的也只是有限的几种语言或者方言,由于南方人普遍存在平翘舌音、边鼻音、前后鼻音发音不清晰的情况,因此在进行语音输入时,与北方口音差异较大导致语音识别后与目标内容相差较远,导致利用模板获取的音素单元不稳定,现有技术中并没有针对解决此问题提出有效的解决方法和系统。
发明内容
为了解决针对南北方口音差异大导致语音识别后与目标内容相差较远的技术问题,本发明提出了一种用于场地或人员的匹配方法和系统,用以解决上述技术问题。
在一个方面,本发明提出了一种用于场地或人员的匹配方法,包括以下步骤:
S1:获取包含场地或人员的语音信息,将语音信息识别为文字信息,并获取文字信息中每个字的拼音信息,拼音信息包括声母和韵母。将语音信息转化成文字信息需要有两个数据库,一是可与提取出的信息进行匹配的声学模型数据库,二是可与之匹配的文本语言数据库。
S2:利用文字信息与目标模板集中的文本进行比对,并利用文字信息中的每个字的声母和韵母与目标模板集中的文本进行相似度匹配,获取文字信息的相似度分值。
S3:将相似度分值大于第一阈值的目标模板集中的文本作为文字信息的匹配结果,若相似度分值小于第一阈值,进行字典查询。
S4:将字典中与语音信息匹配分数最高且处于置信度的预设范围内的目标模板集中的文本信息作为文字信息的匹配结果,否则,人工选择与语音信息对应的目标模板集中的文本,建立语音信息与目标模板集中的文本的映射关系,并更新文字信息的置信度。
优选的,步骤S2中的相似度匹配具体为:若文字信息与目标模板集中的文本的每个字的声母或韵母完全匹配计0.5分、相近匹配计0.25分、不匹配计0分,相似度分值具体为文字信息的每个字的分数之和与字数之比。将匹配结果进行分类计算,可有效区分声母和韵母在不同的组合情况下得分情况,提高数据的识别度和准确性。
优选的,步骤S3中的置信度更新具体为:若人工选择语音信息与目标模板集中的文本匹配,文字信息的置信度增加0.25,若否,置信度降低0.25。置信度会随着人机交互的选择结果,完成自主学习,字典查询的准确性亦随着用户的选择结果不断更新完善。
优选的,第一阈值设置为0.75。高于第一阀值则认为该结果具有可信度,即送入后台查询显示,低于第一阀值则认为没有可信度,则进行字典查询。
进一步优选的,置信度的预设范围为1-3。置信度是一个不断更新变化的一个数值,会随着人机交互的选择结果,完成自主学习从而提高识别的准确度。
进一步优选的,目标模板集为5公里范围内场地或人员的文本信息集合。5公里的距离是一个较为优选的距离范围,当然,可以根据场地的实际情况去具体设置不同范围内场地和人员的文本信息集合。
优选的,步骤S1中获取文字信息中每个字的拼音信息的方法包括使用python语言将汉字转化为拼音。Python是一种跨平台的计算机程序设计语言,是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言,由于Python语言的简洁性、易读性以及可扩展性,被广泛地使用。
优选的,步骤S3中的字典包括通过Python语言定义,并调用数据库MySQL执行sql语句进行查询并将查询结果返回字典。
根据本发明的第二方面,提出了一种计算机可读存储介质,其上存储有一或多个计算机程序,该一或多个计算机程序被计算机处理器执行时实施上述方法。
根据本发明的第三方面,提出了一种用于场地或人员的匹配系统,该系统包括:
语音处理单元:配置用于获取包含场地或人员的语音信息,将语音信息转换为文字信息,并获取文字信息中每个字的拼音信息,拼音信息包括声母和韵母;
相似度匹配单元:配置用于利用文字信息与目标模板集中的文本进行比对,并利用文字信息中的每个字的声母和韵母与目标模板集中的文本进行相似度匹配,获取文字信息的相似度分值;
匹配结果处理单元:配置用于将相似度分值大于第一阈值的目标模板集中的文本作为文字信息的匹配结果,若相似度分值小于第一阈值,进行字典查询;
查询结果处理单元:配置用于获取字典中与语音信息匹配分数最高,且处于置信度的预设范围内的被包括在目标模板集中的文本信息作为文字信息的匹配结果,若最高匹配分数不存在或置信度不在预设范围内,人工选择与语音信息对应的目标模板集中的文本,建立语音信息与目标模板集中的文本的映射关系,并更新文字信息的置信度。
本发明提出了一种用于场地或人员的匹配方法和系统,通过拼音模糊匹配计分算法将文字识别成拼音,将采集到的文字信息转换成拼音,对拼音中的声母和韵母分别与目标模板集所包含的文本中的声母和韵母进行相似度匹配,将按照划分的相似度匹配等级进行评分得出最终分数,并且对不在设置阈值内的语音内容通过字典查询判断置信度是否在设置的范围内进一步修正提高语音识别的正确率,针对平翘舌音、边鼻音、前后鼻音不分的情况进行系统自动修正匹配,提高系统辨识度,以达到用户查询的目的。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是本申请的一个实施例的一种用于场地或人员的匹配方法的流程图;
图3是本申请的一个具体的实施例的一种用于场地或人员的匹配方法的流程图;
图4是本申请的一个实施例的一种用于场地或人员的匹配系统的框架图;
图5是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请实施例的基于用于场地或人员的匹配方法的示例性系统架构100。
如图1所示,系统架构100可以包括数据服务器101,网络102和主服务器103。网络102用以在数据服务器101和主服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
主服务器103可以是提供各种服务的服务器,例如对数据服务器101上传的信息进行处理的数据处理服务器。数据处理服务器可以进行自然语言自动修正方法中的分数计算。
需要说明的是,本申请实施例所提供的自然语言自动修正方法一般由主服务器103执行,相应地,自然语言自动修正的装置一般设置于主服务器103中。
需要说明的是,数据服务器和主服务器可以是硬件,也可以是软件。当为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。
应该理解,图1中的数据服务器、网络和主服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
根据本申请的一种用于场地或人员的匹配方法,图2示出了根据本申请的实施例的用于场地或人员的匹配方法的流程图。如图2所示,该方法包括以下步骤:
S201:获取包含场地或人员的语音信息,将语音信息转换为文字信息,并获取文字信息中每个字的拼音信息,拼音信息包括声母和韵母。
在具体的实施例中,将语音信息转化成文字信息需要有两个数据库,一是可与提取出的信息进行匹配的声学模型数据库,二是可与之匹配的文本语言数据库。文本数据库包含文本语料,文本语料为用户的声韵调数据(标注符号及数量)、单字语音标注、词汇语音标注、句子语音标注、话语语音标注。声学模型的输入是由特征提取模块提取的特征(比如mfcc特征)。一般来说,这些特征是多维的向量,并且其取值可以是离散或连续的。由于语音信号特征的分布并不能用简单的概率分布,例如高斯分布等来直接描述,故而常用混合高斯模型或混合拉普拉斯模型等方法对语音信号的分布进行拟合。在此,混合高斯分布可以表示为若干高斯分量Gi的加权组合。即:
Figure BDA0002509834560000051
其中Gi(x)是均值Ui方差的为σi的高斯分布,当i趋向于无穷时,任何连续分布都可以用混合高斯模型来逼近。高斯混合模型是语音信号处理中的一种常用的统计模型,该模型的一个基本理论前提是只要高斯混合的数目足够多,一个任意的分布就可以在任意的精度下用这些高斯混合的加权平均来逼近。一个包含M个分量的高斯混合分布的概率密度函数是M个高斯概率密度分布函数的加权组合,定义为:
p(x|λ)=∑iMωipi(x)
其中的x是D维随机矢量,pi(x),i=1,2,…,Mpi(x),i=1,2,…,M为M个概率密度函数分量,ωi,i=1,2,…,Mωi,i=1,2,…,M为各个概率密度函数分量的权重。
S202:利用文字信息与目标模板集中的文本进行比对,并利用文字信息中的每个字的声母和韵母与目标模板集中的文本进行相似度匹配,获取文字信息的相似度分值。
在具体的实施例中,使用python语言将汉字转化为拼音,在python中安装xpingyin模块,首先定义一个拼音转化对象,p=pingyin(),利用p.get_pinyin()即可得到汉字转拼音的效果,利用传递参数ton_marks可以将汉字转化成带音节的拼音。
作为将汉字转化为拼音的可替代的实施例中,亦可在Python中安装pypingyin模块,在此模块中具有输出带声调以及不带声调的拼音,不带声调的函数为style=pypinyin.NORMAL,若欲带声调利用函数heteronym=True开启多音字。
在具体实施例中,汉语普通话中的声母为(b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s、y、w),韵母为(a、o、e、i、u、v、ai、ei、ui、ao、ou、iu、ie、ve、er、an、en、in、un、vn、ang、eng、ing、ong),相似度匹配等级设置为完全匹配,相近匹配,不匹配,其中,完全匹配计0.5分,相近匹配计0.25分,不匹配计0分。例如zh和zh为两个完全相同的声母,即为完全匹配计0.5分;zh和z,ch和c,sh和s,f和h,n、l和r为相近声母,即为相近匹配计0.25分;zh和c为完全不同的声母,即为不匹配计0分。韵母:完全匹配计0.5分,匹配相近韵母计0.25分,不匹配为0分。例如ing和ing为两个完全相同的韵母,即为完全匹配计0.5分;ing和in、ang和an和eng和en相近韵母,即为相近匹配计0.25分;ing和ang为完全不同的韵母,即为不匹配计0分)。
S203:获取包含场地或人员的语音信息,将语音信息转换为文字信息,并获取文字信息中每个字的拼音信息,拼音信息包括声母和韵母。
在具体的实施例中,文字信息中每个字分数为声母和韵母分数的总和,最终评分为每个字分数相加除以字数的所得结果,设置第一阀值用于判断所得结果的分数是否大于第一阀值,如果大于第一阀值将进入后台查询并显示,否则进入字典查询,在此实施例中,我们优选0.75作为第一阀值。例如语音输入识别到的拼音为“si”“yin”“san”“ti”“yu”“cang”,目标模板集中有“shi”“ying”“shan”“ti”“yu”“chang”,在进行匹配后计分,计算式为(025+0.5)+(0.5+0.25)+(0.25+0.5)+(0.5+0.5)+(0.5+0.5)+(0.25+0.5)/6=0.83,此时所计算的最终得分0.83大于第一阀值0.75,则将对应的目标模板集中的“shi”“ying”“shan”“ti”“yu”“chang”送入后台查询并显示。又如,语音识别到的拼音为“ci”“yin”“sang”“ti”“yu”“can”,目标模板集中有“shi”“ying”“shan”“ti”“yu”“chang”,在进行匹配后计分,计算式为(0+0.5)+(0.5+0.25)+(0+0)+(0.5+0.5)+(0.5+0.5)+(0.25+0.25)/6=0.63,此时所计算的最终得分0.63小于第一阀值0.75,则将进入字典查询。
语音识别中的字典也被称为发音字典,顾名思义就是用来描述各个词的发音或者给出各个词和音素之间的关系,中文中就是拼音与汉字的对应,英文中就是音标与单词的对应,其目的是根据声学模型识别出来的音素,来找到对应的汉字(词)或者单词,用来在声学模型和语言模型建立桥梁,将两者联系起来。语音识别系统中所有词的结果均出自于字典,也就是说他是识别系统处理词和音素的集合;通过发音字典得到声学模型的建模单元和语言模型的建模单元间的映射关系,从而把声学模型和语言模型连接起来,组成一个搜索的状态空间用于解码器进行解码工作;以中文识别为例:首先需要确定的是拼音到音素的转换规则/映射关系。可以有不同的映射关系,不同的映射关系会产生不同的识别效果。第二步骤,需要列出尽可能多的中文词及其对应的拼音,有多音字的可列出其不同组合。第三步骤,通过以上两个步骤即可实现中文词-音素的转换,通过脚本可实现输入中文词,输出对应音素的功能。在具体的实施例中,通过Python语言定义,并调用数据库MySQL执行sql语句进行查询并将查询结果返回字典。
S204:将字典中与语音信息匹配分数最高且处于置信度的预设范围内的目标模板集中的文本信息作为文字信息的匹配结果,否则,人工选择与语音信息对应的目标模板集中的文本,建立语音信息与目标模板集中的文本的映射关系,并更新文字信息的置信度。
在语音识别中,置信度是用来评估语音识别结果可靠性,用来表示语音识别结果中的某个词正确与否的程度,或者说明整句识别结果是否合理等。从本质上来说,就是对识别结果的正确与否进行判决的的问题,用于置信度计算的信息主要包括三类:(1)识别结果本身的信息:声学得分、语言得分、状态驻留时间、词长等信息,可以直接从识别结果中得到;(2)搜索过程中的信息:竞争路径条数、词图密度等信息,在识别结果中不能直接得到,是在搜索的动态过程中体现出来的,可以通过识别结果得到的lattice生成的混淆网络计算出来;(3)辅助模型提供的信息:不仅需要识别结果本身,还需要借助额外的模型计算得到。
在具体的实施例中,给出的识别结果是一个词序列W1 N,其中,每个词表示为W[ts,te],语音识别中的置信度问题,就是对这样的识别结果[ts,te,cm]给出一个可靠性的度量准则,即计算一个可靠性参数cm,得到带置信度的识别结果。
在具体的实施例中,优选的设置置信度范围为1-3,例如进入字典查询查的最高匹配分数的信息刚好在置信度范围1-3内,则送入用户操作界面供用户选择。
在具体的实施例中,满足当前置信度范围时发送用户界面供用户选择,当用户选择时,对应的置信度将会增加并将拼音与汉字的对应关系存储于词典中。
图3示出了根据本发明的一个实施例的一种用于场地或人员的匹配方法的流程图,如图3所示,该方法包括以下步骤:
301:开始。
302:利用第三方语音输入,例如百度语音,讯飞语音和搜狗语音,采集带有人名和球馆的语音信息。在具体的实施例中,可以运用第三方语音输入识别,随着云计算和AI人工智能的发展,语音输入识别将输入效率提高到了一个全新的层次,语音输入操作简单,输入效率大幅度提高。
303:进行人名识别和场馆名称识别,球场名称识别进入步骤304,人名识别进入步骤305。在具体实施例中以球场作为场地进行匹配,将人名和球场分为两个识别分支,显示人名即显示一定范围内一起打过球的好友。
304:利用手机app定位系统,定位获取范围内5公里的场馆名称,进入步骤306。在具体实施例中,利用手机APP定位系统可以实现定位功能并获取设置范围内的场馆名称,将该场馆名称列表作为目标模板集。
305:在手机app上获取打球过的球友的名称,构成名称列表,进入步骤306。在具体的实施例中,手机app定位系统自动获取打过球的球友名称,构成名称列表,作为目标模板集,与输入信息作比对。
306:通过将文字转换成拼音,移动场馆名称字数匹配文字中的拼音声母、韵母进行匹配场馆名称打分每个字分数为1分,其中声母:完全匹配得0.5分,匹配相近声母得0.25分,不匹配为0分。例相近声母zh和z,韵母:完全匹配得0.5分,匹配相近韵母得0.25分,不匹配为0分。例相近韵母ing和in。
307:将每个字的声母和韵母所得分数相加除以字数,判断所得分数是否大于0.75,是则进入步骤308,否则进入步骤311。在具体实施例中,鉴于南方人翘舌音以及后鼻音发音不准确,该计算是将每个字拆解成分母和韵母进行计算得分,通过计算将识别出来与实际目标不相适应进行调整。
308:将对应的球馆名称和人名发送到后台查询并显示于用户界面,完成308步骤后进入步骤313。将对应的球场的名称送入后台查询,将所获得包括场地位置,可预定场位信息,路线规划等信息送入用户界面。
309:判断字典查询最高匹配分数的场馆名称、人名查询是否存在、且置信度是否在设置的范围1-3内,是则进入步骤310,否则进入步骤311。在具体的实施例中,字典存储了各种包含声母和韵母组合的语音信息和文字信息,每种语音信息和文字信息都有对应的置信度,只有置信度在所设置的范围1-3内,则视该语音信息和文字信息为匹配信息,可送入后台查询并显示。
310:获取在置信度范围内的场馆名称和/或人名信息。
311:分别显示5公里范围内场馆名称列表和/或人名列表供客户选择,用户若选择则进入步骤312,否则重新回到步骤302。
312:选择场馆名称和人名后将句子和相似度最高的场馆名称和人名储存在字典中并加入场馆名称和人名置信度,执行完之后进入步骤308。在具体的实施例中,置信度会随着用户的选择而不断地更新调整,完成自主学习更新从而提高识别的准确性。
313:结束。
利用上述方法可以有效修正用户平翘舌音、边鼻音、前后鼻音发音不清晰的情况,通过用户使用次数的增多,采集到的语音信息与字典中的文本信息匹配的置信度度会随着用户的选择而增多,从而更加提高目标获取率。
继续参考图4,图4示出了根据本发明的实施例的用于场地或人员的匹配系统。该系统具体包括语音处理单元401、相似度匹配单元402、匹配结果处理单元403和查询结果处理单元404。
在具体的实施例中,语音处理单元401:配置用于获取包含场地或人员的语音信息,将语音信息转换为文字信息,并获取文字信息中每个字的拼音信息,拼音信息包括声母和韵母;相似度匹配单元402:配置用于利用文字信息与目标模板集中的文本进行比对,并利用文字信息中的每个字的声母和韵母与目标模板集中的文本进行相似度匹配,获取文字信息的相似度分值;匹配结果处理单元403:配置用于将相似度分值大于第一阈值的目标模板集中的文本作为文字信息的匹配结果,若相似度分值小于第一阈值,进行字典查询;查询结果处理单元404:配置用于将字典中与语音信息匹配分数最高且处于置信度的预设范围内的目标模板集中的文本信息作为文字信息的匹配结果,否则,人工选择与语音信息对应的目标模板集中的文本,建立语音信息与目标模板集中的文本的映射关系,并更新文字信息的置信度。
下面参考图5,其示出了适于用来实现本申请实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中,还存储有系统500操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:将采集到的文字信息转换成拼音,对拼音中的声母和韵母分别与目标模板集所包含的文本中的声母和韵母进行相似度匹配,将按照划分的相似度匹配等级进行评分得出最终分数;基于语音信息的最终评分,判断是否大于第一阀值,若大于第一阀值时将所识别到的信息发送至后台查询并显示,否则进行字典查询;基于字典查询结果,判断语音信息在字典中是否存在最高匹配分数的文字信息以及其置信度是否在设置范围内,若存在最高匹配分数且置信度在设置范围内将该结果发送至后台显示。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种用于场地或人员的匹配方法,其特征在于,包括以下步骤:
S1:获取包含场地或人员的语音信息,将所述语音信息识别为文字信息,并获取所述文字信息中每个字的拼音信息,所述拼音信息包括声母和韵母;
S2:利用所述文字信息与目标模板集中的文本进行比对,并利用所述文字信息中的每个字的所述声母和所述韵母与所述目标模板集中的文本进行相似度匹配,获取所述文字信息的相似度分值;
S3:将所述相似度分值大于第一阈值的所述目标模板集中的文本作为所述文字信息的匹配结果,若所述相似度分值小于第一阈值,进行字典查询;
S4:将所述字典中与所述语音信息匹配分数最高且处于置信度的预设范围内的所述目标模板集中的文本信息作为所述文字信息的匹配结果,否则,人工选择与所述语音信息对应的所述目标模板集中的文本,建立所述语音信息与所述目标模板集中的文本的映射关系,并更新所述文字信息的置信度。
2.根据权利要求1所述的一种用于场地或人员的匹配方法,其特征在于,所述步骤S2中的相似度匹配具体为:若所述文字信息与所述目标模板集中的文本的每个字的所述声母或韵母完全匹配计0.5分、相近匹配计0.25分、不匹配计0分,所述相似度分值具体为所述文字信息的每个字的分数之和与字数之比。
3.根据权利要求1所述的一种用于场地或人员的匹配方法,其特征在于,所述步骤S3中的置信度更新具体为:若人工选择所述语音信息与所述目标模板集中的文本匹配,所述文字信息的置信度增加0.25,若否,所述置信度降低0.25。
4.根据权利要求1所述的一种用于场地或人员的匹配方法,其特征在于,所述第一阈值设置为0.75。
5.根据权利要求1或3所述的一种用于场地或人员的匹配方法,其特征在于,所述置信度的预设范围为1-3。
6.根据权利要求1所述的一种用于场地或人员的匹配方法,其特征在于,所述目标模板集为5公里范围内场地或人员的文本信息集合。
7.根据权利要求1-6中任一项所述的一种用于场地或人员的匹配方法,其特征在于,所述步骤S1中获取所述文字信息中每个字的拼音信息的方法包括使用python语言将汉字转化为拼音。
8.根据权利要求1-6中任一项所述的一种用于场地或人员的匹配方法,其特征在于,所述步骤S3中的字典包括通过Python语言定义,并调用数据库MySQL执行sql语句进行查询并将查询结果返回所述字典。
9.一种计算机可读存储介质,其上存储有一或多个计算机程序,其特征在于,该一或多个计算机程序被计算机处理器执行时实施权利要求1至8中任一项所述的方法。
10.一种用于场地或人员的匹配系统,其特征在于,所述系统包括:
语音处理单元:配置用于获取包含场地或人员的语音信息,将所述语音信息转换为文字信息,并获取所述文字信息中每个字的拼音信息,所述拼音信息包括声母和韵母;
相似度匹配单元:配置用于利用所述文字信息与目标模板集中的文本进行比对,并利用所述文字信息中的每个字的所述声母和所述韵母与所述目标模板集中的文本进行相似度匹配,获取所述文字信息的相似度分值;
匹配结果处理单元:配置用于将所述相似度分值大于第一阈值的所述目标模板集中的文本作为所述文字信息的匹配结果,若所述相似度分值小于第一阈值,进行字典查询;
查询结果处理单元:配置用于将所述字典中与所述语音信息匹配分数最高且处于置信度的预设范围内的所述目标模板集中的文本信息作为所述文字信息的匹配结果,否则,人工选择与所述语音信息对应的所述目标模板集中的文本,建立所述语音信息与所述目标模板集中的文本的映射关系,并更新所述文字信息的置信度。
CN202010457458.5A 2020-05-26 2020-05-26 一种用于场地或人员的匹配方法和系统 Active CN111627445B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010457458.5A CN111627445B (zh) 2020-05-26 2020-05-26 一种用于场地或人员的匹配方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010457458.5A CN111627445B (zh) 2020-05-26 2020-05-26 一种用于场地或人员的匹配方法和系统

Publications (2)

Publication Number Publication Date
CN111627445A true CN111627445A (zh) 2020-09-04
CN111627445B CN111627445B (zh) 2023-07-07

Family

ID=72260017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010457458.5A Active CN111627445B (zh) 2020-05-26 2020-05-26 一种用于场地或人员的匹配方法和系统

Country Status (1)

Country Link
CN (1) CN111627445B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112133295A (zh) * 2020-11-09 2020-12-25 北京小米松果电子有限公司 语音识别方法、装置及存储介质
CN114758649A (zh) * 2022-04-06 2022-07-15 北京百度网讯科技有限公司 一种语音识别方法、装置、设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281745A (zh) * 2008-05-23 2008-10-08 深圳市北科瑞声科技有限公司 一种车载语音交互系统
EP2680165A1 (en) * 2012-06-28 2014-01-01 JaJah Ltd System and method to peform textual queries on voice communications
CN103500579A (zh) * 2013-10-10 2014-01-08 中国联合网络通信集团有限公司 语音识别方法、装置及系统
CN104008132A (zh) * 2014-05-04 2014-08-27 深圳市北科瑞声科技有限公司 语音地图搜索方法及系统
CN109036419A (zh) * 2018-07-23 2018-12-18 努比亚技术有限公司 一种语音识别匹配方法、终端及计算机可读存储介质
CN109256152A (zh) * 2018-11-08 2019-01-22 上海起作业信息科技有限公司 语音评分方法及装置、电子设备、存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101281745A (zh) * 2008-05-23 2008-10-08 深圳市北科瑞声科技有限公司 一种车载语音交互系统
EP2680165A1 (en) * 2012-06-28 2014-01-01 JaJah Ltd System and method to peform textual queries on voice communications
CN103500579A (zh) * 2013-10-10 2014-01-08 中国联合网络通信集团有限公司 语音识别方法、装置及系统
CN104008132A (zh) * 2014-05-04 2014-08-27 深圳市北科瑞声科技有限公司 语音地图搜索方法及系统
CN109036419A (zh) * 2018-07-23 2018-12-18 努比亚技术有限公司 一种语音识别匹配方法、终端及计算机可读存储介质
CN109256152A (zh) * 2018-11-08 2019-01-22 上海起作业信息科技有限公司 语音评分方法及装置、电子设备、存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112133295A (zh) * 2020-11-09 2020-12-25 北京小米松果电子有限公司 语音识别方法、装置及存储介质
CN112133295B (zh) * 2020-11-09 2024-02-13 北京小米松果电子有限公司 语音识别方法、装置及存储介质
CN114758649A (zh) * 2022-04-06 2022-07-15 北京百度网讯科技有限公司 一种语音识别方法、装置、设备和介质
CN114758649B (zh) * 2022-04-06 2024-04-19 北京百度网讯科技有限公司 一种语音识别方法、装置、设备和介质

Also Published As

Publication number Publication date
CN111627445B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
WO2021232725A1 (zh) 基于语音交互的信息核实方法、装置、设备和计算机存储介质
CN108428446B (zh) 语音识别方法和装置
US11062699B2 (en) Speech recognition with trained GMM-HMM and LSTM models
CN112002308B (zh) 一种语音识别方法及装置
CN108831439B (zh) 语音识别方法、装置、设备和系统
CN108899013B (zh) 语音搜索方法、装置和语音识别系统
EP1617409B1 (en) Multimodal method to provide input to a computing device
CN110364171A (zh) 一种语音识别方法、语音识别系统及存储介质
JP7266683B2 (ja) 音声対話に基づく情報検証方法、装置、デバイス、コンピュータ記憶媒体、およびコンピュータプログラム
CN110019741B (zh) 问答系统答案匹配方法、装置、设备及可读存储介质
CN110223134B (zh) 基于语音识别的产品推荐方法及相关设备
CN110782918B (zh) 一种基于人工智能的语音韵律评估方法及装置
CN112397056B (zh) 语音评测方法及计算机存储介质
CN111627445B (zh) 一种用于场地或人员的匹配方法和系统
CN111489746A (zh) 一种基于bert的电网调度语音识别语言模型构建方法
CN112885336A (zh) 语音识别系统的训练、识别方法、装置、电子设备
CN110597958B (zh) 文本分类模型训练和使用方法及装置
CN110647613A (zh) 一种课件构建方法、装置、服务器和存储介质
CN113836945B (zh) 意图识别方法、装置、电子设备和存储介质
CN116978367A (zh) 语音识别方法、装置、电子设备和存储介质
CN112071304B (zh) 一种语意分析方法及装置
CN112133325B (zh) 错误音素识别方法及装置
CN114420159A (zh) 音频评测方法及装置、非瞬时性存储介质
CN113129894A (zh) 语音识别方法、装置、电子设备以及存储介质
CN112820274B (zh) 一种语音信息识别校正方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant