CN114662484A - 语义识别方法、装置、电子设备及可读存储介质 - Google Patents

语义识别方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN114662484A
CN114662484A CN202210257589.8A CN202210257589A CN114662484A CN 114662484 A CN114662484 A CN 114662484A CN 202210257589 A CN202210257589 A CN 202210257589A CN 114662484 A CN114662484 A CN 114662484A
Authority
CN
China
Prior art keywords
semantic
text
matching candidate
word matching
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210257589.8A
Other languages
English (en)
Inventor
赵仕豪
马骏
王少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210257589.8A priority Critical patent/CN114662484A/zh
Publication of CN114662484A publication Critical patent/CN114662484A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种人工智能技术领域,提供一种语义识别方法、装置、电子设备及计算机可读存储介质,其中方法包括:通过自动语音识别对用户的语音进行处理获取预设数量个转译文本;通过词匹配模型获取预设数量个词匹配候选结果;通过语义匹配模型获取预设数量个语义匹配候选结果;通过预先训练好的SBERT模型对转译文本、词匹配候选结果进行计算处理,获取转译文本与词匹配候选结果之间的相似度分数,并选出其中相似度分数最高的词匹配候选结果;按照相似度分数对词匹配候选结果、语义匹配候选结果进行排序,并将排序结果中排序最前的候选结果作为最终识别结果。本发明主要目的在于通过词匹配和语义匹配对转译文本进行处理,以提高用户语音识别准确率。

Description

语义识别方法、装置、电子设备及可读存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种语义识别方法基于机器学习的营收预测方法、装置、电子设备及可读存储介质。
背景技术
自然语言理解(Natural Language Understanding,简称NLU)是人工智能领域重要的领域之一,人通常使用口语来表达自己的观点和想法,人工智能通过对口语进行数据提取分析,可以识别出口语的语义。
传统的智能语义识别,用户的语音经过语音识别(ASR)输出一个文本转译结果,然后通过传统文本匹配模型匹配已有的数据库,识别出用户的意图。由于噪音、说话口音等多种因素,单一的转译文本会带有一定的误差,另外传统文本匹配模型主要解决词汇层面的匹配问题,但在语义、句子结构、知识层面存在局限性;因而,传统的智能语义识别在面对更加复杂的口语语句时,往往难以正确地识别出用户回答的意图。
为了解决上述问题,本发明提供了一种新的语义识别方法。
发明内容
本发明提供一种语义识别方法、装置、电子设备及计算机可读存储介质,其主要目的在于通过词匹配和语义匹配对转译文本进行处理,以提高用户语音识别准确率。
为实现上述目的,本发明提供的一种语义识别方法,应用于电子设备,所述方法包括:
通过自动语音识别对用户的语音进行转译处理,以获取预设数量个转译文本;
通过预设的词匹配模型对每个转译文本进行词匹配处理,获取预设数量个词匹配候选结果;以及,
通过预设的语义匹配模型对每个转译文本进行语义匹配处理,获取预设数量个语义匹配候选结果;
通过预先训练好的SBERT模型对所述转译文本、所述词匹配候选结果进行计算处理,获取所述转译文本与所述词匹配候选结果之间的相似度分数,并选出其中相似度分数最高的词匹配候选结果;
按照相似度分数对所述词匹配候选结果、所述语义匹配候选结果进行排序,并将排序结果中排序最前的所述词匹配候选结果或者所述语义匹配候选结果作为最终识别结果。
可选地,所述通过自动语音识别对用户的语音进行转译处理,以获取预设数量个转译文本,包括:
通过自动语音识别对用户的语音进行识别处理获取所述用户的语音的全部转译文本;
根据每个转译文本中的多识别的字数、少识别的字数、识别错的字数以及总字数,获取每个转译文本的字错率分数;
按照所述字错率分数由低到高的规则对所有的转译文本进行排序,选取预设数量个得分排名靠前的转译文本。
可选地,所述预设的词匹配模型包括BM25和Jaccard;
所述通过预设的词匹配模型对每个转译文本进行词匹配处理,获取预设数量个词匹配候选结果,包括:
通过所述BM25对每个转译文本进行匹配处理,获取第一批词匹配候选结果;以及
通过所述Jaccard对每个转译文本进行匹配处理,获取第二批词匹配候选结果;
对所述第一批词匹配候选结果和第二批词匹配候选结果进行加权比重处理,并按照相似度分数的高度进行排序,并将排序结果中排序最前的词匹配候选结果。
可选地,所述通过预设的语义匹配模型对每个转译文本进行语义匹配处理,获取预设数量个语义匹配候选结果,包括:
通过编码器对所述转译文本进行编码处理,获取所述转译文本向量;
构建与所述转译文本向量相适配的语料文本向量的语义数据库;
计算所述转译文本向量与所述语料文本向量的余弦相似度;
将余弦相似度得分最高的转译文本作为预设数量个语义匹配候选结果。
可选地,所述SBERT模型训练过程包括:
构建相似样本对和不相似样本对,其中,所述相似样本对由意图标签相同的文本两两构造而成,所述不相似样本对由意图标签不相同的文本两两构造而成;
将预处理的相似样本对、不相似样本对输入到构建的SBERT模型中;
通过所述SBERT模型的学习特征层、以及池化层对输入的相似样本对、不相似样本对进行处理,获取预设尺寸的文本对向量;
通过对所述文本对向量进行处理,完成对所述SBERT模型的训练。
可选地,所述通过对所述文本对向量进行处理,完成对所述SBERT模型的训练,包括:
对所述预设尺寸的文本对向量进行拼接,并将拼接后的文本对向量输入到预测层;
通过所述预测层对拼接后的文本对向量进行预测处理,获取预测识别结果的相似度预测概率;
通过损失函数对所述预测识别结果的相似度预测概率进行处理,获取预测识别结果损失;
根据所述预测识别结果损失对所述SBERT模型进行传播训练,获取训练完成的SBERT模型。
可选地,所述通过对所述文本对向量进行处理,完成对所述SBERT模型的训练,包括:
通过二分类器对所述文本对向量进行分类处理,所述文本对向量的余弦相似度;
循环获取所述文本对向量到获取所述文本对向量的余弦相似度的过程,当所述余弦相似度大于或者等于预设相似度时,停止循环过程,以完成对所述SBERT模型的训练。
为了解决上述问题,本发明还提供一种语义识别装置,所述装置包括:
转译文本获取模块,用于通过自动语音识别对用户的语音进行转译处理,以获取预设数量个转译文本;
词匹配处理模块,用于通过预设的词匹配模型对每个转译文本进行词匹配处理,获取预设数量个词匹配候选结果;
语义匹配候选结果获取模块,用于通过预设的语义匹配模型对每个转译文本进行语义匹配处理,获取预设数量个语义匹配候选结果;
词匹配候选结果选取模块,用于通过预先训练好的SBERT模型对所述转译文本、所述词匹配候选结果进行计算处理,获取所述转译文本与所述词匹配候选结果之间的相似度分数,并选出其中相似度分数最高的词匹配候选结果;
最终识别结果确定模块,用于按照相似度分数对所述词匹配候选结果、所述语义匹配候选结果进行排序,并将排序结果中排序最前的所述词匹配候选结果或者所述语义匹配候选结果作为最终识别结果。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的语义识别方法的步骤。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的语义识别方法。
本发明实施例通过通过自动语音识别对用户的语音进行转译处理,以获取预设数量个转译文本;通过词匹配模型对每个转译文本进行词匹配处理,获取预设数量个词匹配候选结果;通过语义匹配模型对每个转译文本进行语义匹配处理,获取预设数量个语义匹配候选结果;通过预先训练好的SBERT模型对所述转译文本、所述词匹配候选结果进行计算处理,获取所述转译文本与所述词匹配候选结果之间的相似度分数,并选出其中相似度分数最高的词匹配候选结果;按照相似度分数对所述词匹配候选结果、所述语义匹配候选结果进行排序,并将排序结果中排序最前的所述词匹配候选结果或者所述语义匹配候选结果作为最终识别结果。本发明通于过词匹配和语义匹配对转译文本进行处理,以提高用户语音识别准确率。
附图说明
图1为本发明一实施例提供的语义识别方法的流程示意图;
图2为本发明一实施例提供的语义识别装置的模块示意图;
图3为本发明一实施例提供的实现语义识别方法的电子设备的内部结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
在下面的描述中,许多具体的细节被阐述。然而,应当理解的是,本发明的实施例可以在没有这些具体细节的情况下实现。在其他实例中,众所周知的方法、结构、和技术没有被详细地示出,以免模糊对本说明书的理解。对“一个实施例”、“实施例”、“示例性实施例”、“各种实施例”等等的参考表示本发明所描述的该实施例可包括特定的特征、结构、或特性,但并不是每一个实施例都必须包括该特定特征、结构、或特性。此外,短语“在一个实施例中”的反复使用不一定是指同一个实施例,尽管有可能是。
如本文所使用的,除非另外指明,使用序数形容词“第一”、“第二”、“第三”等等来描述公共的物体仅表明类似物体的不同实例正被参考,并且不意图暗示如此描述的该物体必须依照给定的顺序,无论在时间上、空间上、顺序上还是任何其他的方式。
如本文所使用的,除非另外指明,术语“移动设备”和/或“设备”一般是指无线通信设备,并且更具体地指以下的一个或多个:便携式电子设备、电话(例如,蜂窝式电话、智能手机)、计算机(例如,膝上型电脑、平板电脑)、便携式媒体播放器、个人数字助理(PDA)、或具有联网能力的任何其他电子设备。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
机器学习(Machine Learning,简称ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
自动语音识别技术(Automatic Speech Recognition,简称ASR)是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。
本发明提供一种语义识别方法。参照图1所示,为本发明一实施例提供的语义识别方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,语义识别方法,包括:
S1:通过自动语音识别对用户的语音进行转译处理,以获取预设数量个转译文本;
S2:通过预设的词匹配模型对每个转译文本进行词匹配处理,获取预设数量个词匹配候选结果;以及,
通过预设的语义匹配模型对每个转译文本进行语义匹配处理,获取预设数量个语义匹配候选结果;
S3:通过预先训练好的SBERT模型对所述转译文本、所述词匹配候选结果进行计算处理,获取所述转译文本与所述词匹配候选结果之间的相似度分数,并选出其中相似度分数最高的词匹配候选结果;
S4:按照相似度分数对所述词匹配候选结果、所述语义匹配候选结果进行排序,并将排序结果中排序最前的所述词匹配候选结果或者所述语义匹配候选结果作为最终识别结果。
在步骤S1中,所述通过自动语音识别(ASR,Automatic Speech Recognition)对用户的语音进行转译处理,以获取预设数量个转译文本,包括如下步骤:
S11:通过自动语音识别对用户的语音进行识别处理获取所述用户的语音的全部转译文本;
S12:根据每个转译文本中的多识别的字数、少识别的字数、识别错的字数以及总字数,获取每个转译文本的字错率分数;
S13:按照所述字错率分数由低到高的规则对所有的转译文本进行排序,选取预设数量个得分排名靠前的转译文本。
在本发明的实施例中,在接收客户语音回答后,基于的语音识别(ASR,AutomaticSpeech Recognition,自动语音识别)将语音转译成文本以及输出转译文本的字错率分数(WER),其中,字错率是把转译文本中识别出来的结果中多认的、少认的以及认错的字数求和,除以总单词数。如果这个比值越低,则转译文本评分越高,因而提取算评分最高的n个结果,实际应用中,可以选取了3个转译文本。
在步骤S2中,所述词匹配模型包括所述BM25和Jaccard,所述通过预设的词匹配模型对每个转译文本进行词匹配处理,获取预设数量个词匹配候选结果,包括:
S211:通过BM25对每个转译文本进行匹配处理,获取第一批词匹配候选结果;以及,
S212:通过所述Jaccard对每个转译文本进行匹配处理,获取第二批词匹配候选结果;
S213:对所述第一批词匹配候选结果和第二批词匹配候选结果进行加权比重处理,并按照相似度分数的高度进行排序,并将排序结果中排序最前的词匹配候选结果。
在本发明的实施例中,每个转译文本通过词匹配模型从语料数据库中文本进行匹配,获取与转译文本相似度最高的预设数量的词匹配候选结果。词匹配模型包括VSM、TF-IDF、BM25、Jaccard等,其中,采用BM25和Jaccard结合的策略效果最好,即:挑选BM25得分以及Jaccard得分的加权得分最高的结果,其中,加权比重:BM25为0.7,Jaccard为0.3;因而在词匹配模型环节对每个转译文本进行匹配采用BM25和Jaccard综合匹配,按照相似度分数的高度进行排序,得分最高的5个候选结果,总共15个候选结果,语料预处理后送入孪生网络模型(Sentence-BERT,简称SBERT)。
在步骤S2中,所述通过预设的语义匹配模型对每个转译文本进行语义匹配处理,获取预设数量个语义匹配候选结果,包括:
S221:通过编码器对所述转译文本进行编码处理,获取所述转译文本向量;
S222:构建与所述转译文本向量相适配的语料文本向量的语义数据库;
S223:计算所述转译文本向量与所述语料文本向量的余弦相似度;
S224:将余弦相似度得分最高的转译文本作为预设数量个语义匹配候选结果。
在本发明的实施例中,对转译文本进行语义匹配,文本输入到文本编码模块,得到对应的文本向量,这里文本编码模块主要由经过语料训练的SBERT模型以及句向量计算策略模型组成。整个语义匹配流程可概括为以下几步:①建立文本匹配数据库。使用文本编码模块,将已有的全部语料数据编码得到文本向量,然后以每条文本及对应向量和意图标签的形式,即(text_A,text_vector_A,label_A),储存并建立语义匹配数据库。②计算转译文本向量和语义数据库中向量的余弦相似度。当转译文本输入到语义匹配模块时,每条转译文本向量都会和数据库中的全量语料的向量进行余弦相似度计算,得到相似度得分。其中,语义数据库是上一步中由积累的全部语料通过编码模块转成向量矩阵形式储存建立的,这样在进行匹配检索时,由文本两两匹配方式变成了向量矩阵匹配方式,大大加快了匹配检索的速度。在实际测试中,速度提升了约8倍。③挑选相似度得分最高的n个候选结果,输入到最终预测集合。在实际应用中,通常把n的值设定为3。
在步骤S3中,所述SBERT模型训练过程包括:
S31:构建相似样本对和不相似样本对,其中,所述相似样本对由意图标签相同的文本两两构造而成,所述不相似样本对由意图标签不相同的文本两两构造而成;
S32:将预处理的相似样本对、不相似样本对输入到构建的SBERT模型中;
S33:通过所述SBERT模型的学习特征层、以及池化层对输入的相似样本对、不相似样本对进行处理,获取预设尺寸的文本对向量;
S34:通过对所述文本对向量进行处理,完成对所述SBERT模型的训练。
其中,在步骤S34中,所述通过对所述文本对向量进行处理,完成对所述SBERT模型的训练,包括:
S3411:对所述预设尺寸的文本对向量进行拼接,并将拼接后的文本对向量输入到预测层;
S3412:通过所述预测层对拼接后的文本对向量进行预测处理,获取预测识别结果的相似度预测概率;
S3413:通过损失函数对所述预测识别结果的相似度预测概率进行处理,获取预测识别结果损失;
S3414:根据所述预测识别结果损失对所述SBERT模型进行传播训练,获取训练完成的SBERT模型。
在本发明的步骤S34的另一种实施例中,所述通过对所述文本对向量进行处理,完成对所述SBERT模型的训练,包括:
S3421:通过二分类器对所述文本对向量进行分类处理,所述文本对向量的余弦相似度;
S3422:循环获取所述文本对向量到获取所述文本对向量的余弦相似度的过程,当所述余弦相似度大于或者等于预设相似度时,停止循环过程,以完成对所述SBERT模型的训练。
在本发明的实施例中,在训练集的构建上,从数据库中挑选意图标签相同的数据,两两构造相似样本对,如(text_A,text_A’,1)。意图标签不相同的数据,两两构造不相似样本对,如(text_A,text_B,0)。最后得到相似样本集合和不相似样本集合,在模型训练时,每个样本对的两个文本作为模型的两个输入。SBERT模型的训练过程可以简单概括为:①每条样本对中的两个文本被预处理成BERT训练所需的标准格式,即[[CLS]+SENTENCE_TOKEN+[SEP]],然后送入到BERT模型中;②BERT的多层Transformer学习特征,再通过pooling,得到固定大小的向量表示;③拼接向量(u,v,|u-v|),其中u和v代表两个文本向量,|u-v|代表取两个向量的绝对值。然后输入到softmax层,损失函数选择交叉熵函数;④训练模型,不断优化Loss函数。
其中,需要说明的是,在孪生网络模型(SBERT模型)的预测部分,设计两种预测方式:(a)将两个文本的向量拼接组合,接入到一个全连接层,使用softmax进行分类输出;(b)将两个文本的向量计算余弦相似度,输出相似度得分。在实际的应用中,可以采用计算余弦相似度的策略,因为余弦相似度分数反映了两个文本之间的匹配程度。
在步骤S4中,转译文本和词匹配模型的候选结果,处理成SBERT模型需要的数据格式后传入到训练好的SBERT中。SBERT首先将转译文本和候选结果编码得到对应的向量,然后计算转译文本向量和候选结果向量之间的余弦相似度分数。之后和语义匹配的相似度得分结果一起传入到重排模块(ReRank),按分数由高到低对所有预测结果进行排列,返回得分最高的预测结果。
在本发明的一个具体的实施例中,收集在应用中获取的业务数据,标注后构建新的训练数据,不断优化模型的性能。在重排环节加入阈值机制,经过测试,阈值设定为0.93效果最好,即只采用相似度得分大于或等于0.93的结果,相似度得分小于0.93的结果不采用并返回意图拒识的结果。如果采用相似度得分低于阈值的结果,会增加系统的误识率,为了保证最大的识别正确率,只输出分数大于或等于阈值的结果。
本发明通过词匹配和语义匹配,在传统文本匹配模型和深度文本匹配模型的基础上,弥补识别准确率的不足,让最终的识别准确率得到了较大的提升。其中,语义匹配环节采用向量计算匹配的方式,不仅节省了机器的计算成本,还极大地提高了检索速度。而SBERT模型的应用,能更好地捕捉句子之间的关系,从而获取更好的句子表征向量。在词匹配环节,使用模型组合,能够更加精确地召回候选结果。而在最后的重排环节,将语义匹配生成的结果和词匹配生成的结果融合进行综合评价,从而提高了识别的准确率。
总的来说,采用本发明的语义识别方法在面对客户的复杂口语回答时,能够更加快速准确地识别出客户的意图,进而减少了人工坐席服务需求,提高呼叫中心的工作效率,改善服务质量,提高客户满意度。
本发明实施例通过通过自动语音识别对用户的语音进行转译处理,以获取预设数量个转译文本;通过词匹配模型对每个转译文本进行词匹配处理,获取预设数量个词匹配候选结果;通过语义匹配模型对每个转译文本进行语义匹配处理,获取预设数量个语义匹配候选结果;通过预先训练好的SBERT模型对所述转译文本、所述词匹配候选结果进行计算处理,获取所述转译文本与所述词匹配候选结果之间的相似度分数,并选出其中相似度分数最高的词匹配候选结果;按照相似度分数对所述词匹配候选结果、所述语义匹配候选结果进行排序,并将排序结果中排序最前的所述词匹配候选结果或者所述语义匹配候选结果作为最终识别结果。本发明通于过词匹配和语义匹配对转译文本进行处理,以提高用户语音识别准确率。
如图2所示,是本发明语义识别装置的功能模块图。本发明所述语义识别装置100可以安装于电子设备中。根据实现的功能,所述基于机器学习的营收预测装置100可以包括:转译文本获取模块101、词匹配处理模块102、语义匹配候选结果获取模块103、词匹配候选结果选取模块104和最终识别结果确定模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
转译文本获取模块101,用于通过自动语音识别对用户的语音进行转译处理,以获取预设数量个转译文本;
词匹配处理模块102,用于通过预设的词匹配模型对每个转译文本进行词匹配处理,获取预设数量个词匹配候选结果;
语义匹配候选结果获取模块103,用于通过预设的语义匹配模型对每个转译文本进行语义匹配处理,获取预设数量个语义匹配候选结果;
词匹配候选结果选取模块104,用于通过预先训练好的SBERT模型对所述转译文本、所述词匹配候选结果进行计算处理,获取所述转译文本与所述词匹配候选结果之间的相似度分数,并选出其中相似度分数最高的词匹配候选结果;
最终识别结果确定模块105,用于按照相似度分数对所述词匹配候选结果、所述语义匹配候选结果进行排序,并将排序结果中排序最前的所述词匹配候选结果或者所述语义匹配候选结果作为最终识别结果。
本发明实施例通过通过自动语音识别对用户的语音进行转译处理,以获取预设数量个转译文本;通过词匹配模型对每个转译文本进行词匹配处理,获取预设数量个词匹配候选结果;通过语义匹配模型对每个转译文本进行语义匹配处理,获取预设数量个语义匹配候选结果;通过预先训练好的SBERT模型对所述转译文本、所述词匹配候选结果进行计算处理,获取所述转译文本与所述词匹配候选结果之间的相似度分数,并选出其中相似度分数最高的词匹配候选结果;按照相似度分数对所述词匹配候选结果、所述语义匹配候选结果进行排序,并将排序结果中排序最前的所述词匹配候选结果或者所述语义匹配候选结果作为最终识别结果。本发明通于过词匹配和语义匹配对转译文本进行处理,以提高用户语音识别准确率。
如图3所示,是本发明实现语义识别方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如基于机器学习的营收预测程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如数据稽核程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。存储器可以存储内容,该内容可由电子设备显示或被发送到其他设备(例如,耳机)以由其他设备来显示或播放。存储器还可以存储从其他设备接收的内容。该来自其他设备的内容可由电子设备显示、播放、或使用,以执行任何必要的可由电子设备和/或无线接入点中的计算机处理器或其他组件实现的任务或操作。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如数据稽核程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。电子还可包括芯片组(未示出),其用于控制一个或多个处理器与用户设备的其他组件中的一个或多个之间的通信。在特定的实施例中,电子设备可基于
Figure BDA0003549371630000131
架构或
Figure BDA0003549371630000132
架构,并且处理器和芯片集可来自
Figure BDA0003549371630000133
处理器和芯片集家族。该一个或多个处理器104还可包括一个或多个专用集成电路(ASIC)或专用标准产品(ASSP),其用于处理特定的数据处理功能或任务。
总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
此外,网络和I/O接口可包括一个或多个通信接口或网络接口设备,以提供经由网络(未示出)在电子设备和其他设备(例如,网络服务器)之间的数据传输。通信接口可包括但不限于:人体区域网络(BAN)、个人区域网络(PAN)、有线局域网(LAN)、无线局域网(WLAN)、无线广域网(WWAN)、等等。用户设备102可以经由有线连接耦合到网络。然而,无线系统接口可包括硬件或软件以广播和接收消息,其使用Wi-Fi直连标准和/或IEEE 802.11无线标准、蓝牙标准、蓝牙低耗能标准、Wi-Gig标准、和/或任何其他无线标准和/或它们的组合。
无线系统可包括发射器和接收器或能够在由IEEE 802.11无线标准所支配的操作频率的广泛范围内操作的收发器。通信接口可以利用声波、射频、光学、或其他信号来在电子设备与其他设备(诸如接入点、主机、服务器、路由器、读取设备、和类似物)之间交换数据。网络可包括但不限于:因特网、专用网络、虚拟专用网络、无线广域网、局域网、城域网、电话网络、等等。
显示器可包括但不限于液晶显示器、发光二极管显示器、或由在美国马萨诸塞州剑桥城的E Ink公司(E Ink Corp.of Cambridge,Massachusetts)所制造的E-InkTM显示器。该显示器可用于将内容以文本、图像、或视频的形式显示给用户。在特定的实例中,该显示器还可以作为触控屏显示器操作,其可以使得用户能够藉由使用某些手指或手势来触摸屏幕以启动命令或操作。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备3的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的语义识别程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
通过自动语音识别对用户的语音进行转译处理,以获取预设数量个转译文本;
通过预设的词匹配模型对每个转译文本进行词匹配处理,获取预设数量个词匹配候选结果;以及,
通过预设的语义匹配模型对每个转译文本进行语义匹配处理,获取预设数量个语义匹配候选结果;
通过预先训练好的SBERT模型对所述转译文本、所述词匹配候选结果进行计算处理,获取所述转译文本与所述词匹配候选结果之间的相似度分数,并选出其中相似度分数最高的词匹配候选结果;
按照相似度分数对所述词匹配候选结果、所述语义匹配候选结果进行排序,并将排序结果中排序最前的所述词匹配候选结果或者所述语义匹配候选结果作为最终识别结果。
具体地,所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。需要强调的是,为进一步保证上述每组待处理语义单元的相似度语义处理结果的私密和安全性,上述每组待处理语义单元的相似度语义处理还可以存储于一区块链的节点中。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明的实施例中,计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的语义识别方法的步骤,具体方法如下:
通过自动语音识别对用户的语音进行转译处理,以获取预设数量个转译文本;
通过预设的词匹配模型对每个转译文本进行词匹配处理,获取预设数量个词匹配候选结果;以及,
通过预设的语义匹配模型对每个转译文本进行语义匹配处理,获取预设数量个语义匹配候选结果;
通过预先训练好的SBERT模型对所述转译文本、所述词匹配候选结果进行计算处理,获取所述转译文本与所述词匹配候选结果之间的相似度分数,并选出其中相似度分数最高的词匹配候选结果;
按照相似度分数对所述词匹配候选结果、所述语义匹配候选结果进行排序,并将排序结果中排序最前的所述词匹配候选结果或者所述语义匹配候选结果作为最终识别结果。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
以上参考根据本发明的示例性实施例的系统和方法和/或计算机程序产品的框图和流程图描述了本发明的某些实施例。应当理解的是,框图和流程图中的一个或多个方框、以及在框图和流程图中的方框的组合,可以分别由计算机可执行程序指令实现。同样地,根据本发明的一些实施例,框图和流程图中的一些方框可以不必按照所呈现的顺序执行,或者甚至可以完全不需要执行。
这些计算机可执行程序指令可以被加载到通用计算机、专用计算机、处理器、或其他可编程数据处理装置上以产生特定机器,使得在计算机、处理器、或其他可编程数据处理装置上执行的指令创建用于实现在流程图方框或多个方框中所指定的一个或多个功能的构件。这些计算机程序产品还可以存储在计算机可读存储器中,其可以指导计算机或其他可编程数据处理装置以特定的方式运行,使得存储在计算机可读存储器中的指令产生制品,该制品包括实现在流程图的方框或多个方框中指定的一个或多个功能的指令构件。例如,本发明的实施例可提供计算机程序产品,其包括其中包含有计算机可读程序代码或程序指令的计算机可用介质,所述计算机可读程序代码适于被执行以实现在流程图方框或多个方框中指定的一个或多个功能。计算机程序指令还可以被加载到计算机或其他可编程数据处理装置上,以致使一系列操作元素或步骤在计算机或其他可编程装置上执行易产生计算机实现的程序,使得在计算机或其他可编程装置上执行的指令提供用于实现在流程图方框或多个方框中指定的功能的元素或步骤。
相应地,框图或流程图中的方框支持用以执行指定功能的构件的组合、用于执行指定功能的元素或步骤与用于执行指定功能的程序指令构件的组合。还应当理解的是,框图和流程图中的每个方框以及框图和流程图中的方框的组合可由执行指定功能、元素或步骤的专用的基于硬件的计算机系统实现,或由专用硬件或计算机指令的组合实现。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
虽然本发明的某些实施例已经结合目前被认为是最实用的且各式各样的实施例进行了描述,但应当理解,本发明并不限于所公开的实施例,而是意在覆盖包含在所附权利要求书的范围之内的各种修改和等价布置。虽然本文采用了特定的术语,但它们仅以一般性和描述性的意义使用,而不是用于限制的目的。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种语义识别方法,应用于电子设备,其特征在于,所述方法包括:
通过自动语音识别对用户的语音进行转译处理,以获取预设数量个转译文本;
通过预设的词匹配模型对每个转译文本进行词匹配处理,获取预设数量个词匹配候选结果;以及,通过预设的语义匹配模型对每个转译文本进行语义匹配处理,获取预设数量个语义匹配候选结果;
通过预先训练好的SBERT模型对所述转译文本、所述词匹配候选结果进行计算处理,获取所述转译文本与所述词匹配候选结果之间的相似度分数,并选出其中相似度分数最高的词匹配候选结果;
按照相似度分数对所述词匹配候选结果、所述语义匹配候选结果进行排序,并将排序结果中排序最前的所述词匹配候选结果或者所述语义匹配候选结果作为最终识别结果。
2.如权利要求1所述的语义识别方法,其特征在于,所述通过自动语音识别对用户的语音进行转译处理,以获取预设数量个转译文本,包括:
通过自动语音识别对用户的语音进行识别处理获取所述用户的语音的全部转译文本;
根据每个转译文本中的多识别的字数、少识别的字数、识别错的字数以及总字数,获取每个转译文本的字错率分数;
按照所述字错率分数由低到高的规则对所有的转译文本进行排序,选取预设数量个得分排名靠前的转译文本。
3.如权利要求1所述的语义识别方法,其特征在于,所述预设的词匹配模型包括BM25和Jaccard;
所述通过预设的词匹配模型对每个转译文本进行词匹配处理,获取预设数量个词匹配候选结果,包括:
通过所述BM25对每个转译文本进行匹配处理,获取第一批词匹配候选结果;以及,
通过所述Jaccard对每个转译文本进行匹配处理,获取第二批词匹配候选结果;
对所述第一批词匹配候选结果和第二批词匹配候选结果进行加权比重处理,并按照相似度分数的高度进行排序,并将排序结果中排序最前的词匹配候选结果。
4.如权利要求1所述的语义识别方法,其特征在于,所述通过预设的语义匹配模型对每个转译文本进行语义匹配处理,获取预设数量个语义匹配候选结果,包括:
通过编码器对所述转译文本进行编码处理,获取所述转译文本向量;
构建与所述转译文本向量相适配的语料文本向量的语义数据库;
计算所述转译文本向量与所述语料文本向量的余弦相似度;将余弦相似度得分最高的转译文本作为预设数量个语义匹配候选结果。
5.如权利要求1所述的语义识别方法,其特征在于,所述SBERT模型训练过程包括:
构建相似样本对和不相似样本对,其中,所述相似样本对由意图标签相同的文本两两构造而成,所述不相似样本对由意图标签不相同的文本两两构造而成;
将预处理的相似样本对、不相似样本对输入到构建的SBERT模型中;
通过所述SBERT模型的学习特征层、以及池化层对输入的相似样本对、不相似样本对进行处理,获取预设尺寸的文本对向量;
通过对所述文本对向量进行处理,完成对所述SBERT模型的训练。
6.如权利要求5所述的语义识别方法,其特征在于,所述通过对所述文本对向量进行处理,完成对所述SBERT模型的训练,包括:
对所述预设尺寸的文本对向量进行拼接,并将拼接后的文本对向量输入到预测层;
通过所述预测层对拼接后的文本对向量进行预测处理,获取预测识别结果的相似度预测概率;
通过损失函数对所述预测识别结果的相似度预测概率进行处理,获取预测识别结果损失;
根据所述预测识别结果损失对所述SBERT模型进行传播训练,获取训练完成的SBERT模型。
7.如权利要求5所述的语义识别方法,其特征在于,所述通过对所述文本对向量进行处理,完成对所述SBERT模型的训练,包括:
通过二分类器对所述文本对向量进行分类处理,所述文本对向量的余弦相似度;
循环获取所述文本对向量到获取所述文本对向量的余弦相似度的过程,当所述余弦相似度大于或者等于预设相似度时,停止循环过程,以完成对所述SBERT模型的训练。
8.一种语义识别装置,其特征在于,所述装置包括:
转译文本获取模块,用于通过自动语音识别对用户的语音进行转译处理,以获取预设数量个转译文本;
词匹配处理模块,用于通过预设的词匹配模型对每个转译文本进行词匹配处理,获取预设数量个词匹配候选结果;
语义匹配候选结果获取模块,用于通过预设的语义匹配模型对每个转译文本进行语义匹配处理,获取预设数量个语义匹配候选结果;
词匹配候选结果选取模块,用于通过预先训练好的SBERT模型对所述转译文本、所述词匹配候选结果进行计算处理,获取所述转译文本与所述词匹配候选结果之间的相似度分数,并选出其中相似度分数最高的词匹配候选结果;
最终识别结果确定模块,用于按照相似度分数对所述词匹配候选结果、所述语义匹配候选结果进行排序,并将排序结果中排序最前的所述词匹配候选结果或者所述语义匹配候选结果作为最终识别结果。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一所述的语义识别方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的语义识别方法。
CN202210257589.8A 2022-03-16 2022-03-16 语义识别方法、装置、电子设备及可读存储介质 Pending CN114662484A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210257589.8A CN114662484A (zh) 2022-03-16 2022-03-16 语义识别方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210257589.8A CN114662484A (zh) 2022-03-16 2022-03-16 语义识别方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN114662484A true CN114662484A (zh) 2022-06-24

Family

ID=82029441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210257589.8A Pending CN114662484A (zh) 2022-03-16 2022-03-16 语义识别方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114662484A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115376499A (zh) * 2022-08-18 2022-11-22 东莞市乐移电子科技有限公司 一种应用于学习领域下的智能耳机的学习监控手段
CN117574877A (zh) * 2023-11-21 2024-02-20 北京假日阳光环球旅行社有限公司 一种会话文本匹配方法及装置、存储介质、设备
CN117574877B (zh) * 2023-11-21 2024-05-24 北京假日阳光环球旅行社有限公司 一种会话文本匹配方法及装置、存储介质、设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115376499A (zh) * 2022-08-18 2022-11-22 东莞市乐移电子科技有限公司 一种应用于学习领域下的智能耳机的学习监控手段
CN117574877A (zh) * 2023-11-21 2024-02-20 北京假日阳光环球旅行社有限公司 一种会话文本匹配方法及装置、存储介质、设备
CN117574877B (zh) * 2023-11-21 2024-05-24 北京假日阳光环球旅行社有限公司 一种会话文本匹配方法及装置、存储介质、设备

Similar Documents

Publication Publication Date Title
CN112164391B (zh) 语句处理方法、装置、电子设备及存储介质
WO2022022421A1 (zh) 语言表示模型系统、预训练方法、装置、设备及介质
CN113205817A (zh) 语音语义识别方法、系统、设备及介质
CN111930792B (zh) 数据资源的标注方法、装置、存储介质及电子设备
CN111695354A (zh) 基于命名实体的文本问答方法、装置及可读存储介质
CN112100332A (zh) 词嵌入表示学习方法及装置、文本召回方法及装置
CN114021582B (zh) 结合语音信息的口语理解方法、装置、设备及存储介质
CN113096242A (zh) 虚拟主播生成方法、装置、电子设备及存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN116561592B (zh) 文本情感识别模型的训练方法和文本情感识别方法及装置
CN113761190A (zh) 文本识别方法、装置、计算机可读介质及电子设备
CN113378970A (zh) 语句相似性检测方法、装置、电子设备及存储介质
WO2023134069A1 (zh) 实体关系的识别方法、设备及可读存储介质
CN114416943A (zh) 对话模型的训练方法、装置、电子设备及存储介质
CN113254814A (zh) 网络课程视频打标签方法、装置、电子设备及介质
CN114020886A (zh) 语音意图识别方法、装置、设备及存储介质
CN114662484A (zh) 语义识别方法、装置、电子设备及可读存储介质
CN110377706B (zh) 基于深度学习的搜索语句挖掘方法及设备
CN114398896A (zh) 信息录入方法、装置、电子设备及计算机可读存储介质
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN116450829A (zh) 医疗文本分类方法、装置、设备及介质
CN116628162A (zh) 语义问答方法、装置、设备及存储介质
CN113450805B (zh) 基于神经网络的自动语音识别方法、设备及可读存储介质
CN114548114A (zh) 文本情绪识别方法、装置、设备及存储介质
CN113850078A (zh) 基于机器学习的多意图识别方法、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination