CN114818693A - 一种语料匹配的方法、装置、计算机设备及存储介质 - Google Patents
一种语料匹配的方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN114818693A CN114818693A CN202210315997.4A CN202210315997A CN114818693A CN 114818693 A CN114818693 A CN 114818693A CN 202210315997 A CN202210315997 A CN 202210315997A CN 114818693 A CN114818693 A CN 114818693A
- Authority
- CN
- China
- Prior art keywords
- corpus
- linguistic data
- professional
- matching
- conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种语料匹配的方法、装置、计算机设备及存储介质,属于人工智能技术领域。通过将专业语料输入到预先训练好的语料转化模型,得到专业语料对应的常规语料,对常规语料进行向量转化,得到第一句向量,对待匹配语料进行向量转化,得到第二句向量,计算第一句向量和第二句向量的相似度,得到句向量相似度,基于句向量相似度对待匹配语料和专业语料进行语料匹配,输出语料匹配结果。此外,本申请还涉及区块链技术,待匹配语料可存储于区块链中。本申请先通过一个语料转化模型将语料库中的专业语料转化为常规语料,再将用户的待匹配语料和常规语料进行语料匹配,提高常规口语语料的匹配成功率,丰富人机交互系统的使用场景。
Description
技术领域
本申请属于人工智能技术领域,具体涉及一种语料匹配的方法、装置、计算机设备及存储介质。
背景技术
随着人工智能技术的飞速发展,各种各样的人机交互系统随处可见,而大多数人机交互系统应用过程中都需要进行语料匹配,以识别用户意图。例如,在智慧中医领域,机器人辅助问诊是比较常见的一种业务场景,机器人通过分析和患者“对话”内容,简单识别患者的一些基本症状,以代替人工专家收集患者信息,而在这个过程中,如何正确识别患者“对话”内容中的信息是必不可少的一环。
但是,目前大多数的人机交互系统只能完成专业语料的匹配,而对于常规的一些口语语料的匹配成功率较低,导致人机交互系统的场景局限性较大。例如,在机器人诊疗场景中,不同患者对同一个症状可能对应不同的口述表达,即使同一个患者,在不同的对话中情景下,对同一个症状都可能存在不同的口述表达,可见患者口语表述的症状信息是不规范的,而机器人难以根据患者口语表述的症状信息精准识别出患者症状类别。
发明内容
本申请实施例的目的在于提出一种语料匹配的方法、装置、计算机设备及存储介质,以解决现有智能人机交互系统仅能完成专业语料的匹配,而对于常规口语语料的匹配成功率较低,导致人机交互系统的场景局限性较大的技术问题。
为了解决上述技术问题,本申请实施例提供一种语料匹配的方法,采用了如下所述的技术方案:
一种语料匹配的方法,包括:
从预设的语料库中获取预先收集的所有专业语料;
将专业语料输入到预先训练好的语料转化模型,得到专业语料对应的常规语料;
对常规语料进行向量转化,得到第一句向量;
获取用户输入的待匹配语料,并对待匹配语料进行向量转化,得到第二句向量;
计算第一句向量和第二句向量的相似度,得到句向量相似度;
基于句向量相似度对待匹配语料和专业语料进行语料匹配,输出语料匹配结果。
进一步地,在将专业语料输入到预先训练好的语料转化模型,得到专业语料对应的常规语料的步骤之前,还包括:
从语料库中获取相互匹配的历史专业语料和历史常规语料,以构建训练语料;
通过训练语料对预设的初始神经网络模型进行迭代训练,得到训练好的语料转化模型。
进一步地,从语料库中获取相互匹配的历史专业语料和历史常规语料,以构建训练语料的步骤,具体包括:
对历史专业语料进行分词处理,得到第一分词;
对历史常规语料进行分词处理,得到第二分词;
对第一分词和第一分词进行匹配,得到分词匹配结果;
根据分词匹配结果对历史专业语料和历史常规语料进行文本标志符插入处理,得到训练语料。
进一步地,根据分词匹配结果对历史专业语料和历史常规语料进行文本标志符插入处理,得到训练语料的步骤,具体包括:
根据分词匹配结果确定历史专业语料和历史常规语料的分词位置;
比对历史专业语料和历史常规语料的文本长度,并根据分词位置在文本长度较短的语料中插入文本标志符,形成训练语料。
进一步地,初始神经网络模型包括输入层、卷积层和输出层,通过训练语料对预设的初始神经网络模型进行迭代训练,得到训练好的语料转化模型的步骤,具体包括:
采用输入层对训练语料进行向量转换,得到训练语料向量;
采用卷积层对训练语料向量进行卷积运算,得到特征数据;
将特征数据导入到输出层中进行相似度计算,并输出相似度最大值对应的语料转化识别结果;
利用语料转化识别结果对初始神经网络模型进行迭代更新,得到训练好的语料转化模型。
进一步地,利用语料转化识别结果对初始神经网络模型进行迭代更新,得到训练好的语料转化模型的步骤,具体包括:
基于语料转化识别结果与预设标准结果,使用反向传播算法进行拟合,获取预测误差;
将预测误差与预设误差阈值进行比较,若预测误差大于预设误差阈值,则对初始神经网络模型进行迭代更新,直到预测误差小于等于预设误差阈值为止,得到训练好的语料转化模型。
进一步地,基于句向量相似度对待匹配语料和专业语料进行语料匹配,输出语料匹配结果的步骤,具体包括:
对计算得到的句向量相似度进行降序排列,得到相似度排序结果;
将相似度排序结果中的最大值对应的专业语料作为待匹配语料的语料匹配结果,并输出语料匹配结果。
为了解决上述技术问题,本申请实施例还提供一种语料匹配的装置,采用了如下所述的技术方案:
一种语料匹配的装置,包括:
专业语料获取模块,用于从预设的语料库中获取预先收集的所有专业语料;
专业语料转化模块,用于将专业语料输入到预先训练好的语料转化模型,得到专业语料对应的常规语料;
第一向量转化模块,用于对常规语料进行向量转化,得到第一句向量;
第二向量转化模块,用于获取用户输入的待匹配语料,并对待匹配语料进行向量转化,得到第二句向量;
相似度计算模块,用于计算第一句向量和第二句向量的相似度,得到句向量相似度;
语料匹配模块,用于基于句向量相似度对待匹配语料和专业语料进行语料匹配,输出语料匹配结果。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,处理器执行计算机可读指令时实现如上述任一项的语料匹配的方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,计算机可读存储介质上存储有计算机可读指令,计算机可读指令被处理器执行时实现如上述任一项的语料匹配的方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请公开了一种语料匹配的方法、装置、计算机设备及存储介质,属于人工智能技术领域。通过将专业语料输入到预先训练好的语料转化模型,得到专业语料对应的常规语料,对常规语料进行向量转化,得到第一句向量,获取用户输入的待匹配语料,并对待匹配语料进行向量转化,得到第二句向量,计算第一句向量和第二句向量的相似度,得到句向量相似度,基于句向量相似度对待匹配语料和专业语料进行语料匹配,输出语料匹配结果。本申请先通过一个语料转化模型将语料库中的专业语料转化为常规语料,再将用户的待匹配语料和常规语料进行语料匹配,提高常规口语语料的匹配成功率,丰富人机交互系统的使用场景。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请可以应用于其中的示例性系统架构图;
图2示出了根据本申请的语料匹配的方法的一个实施例的流程图;
图3示出了根据本申请的语料匹配的装置的一个实施例的结构示意图;
图4示出了根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的语料匹配的方法一般由服务器执行,相应地,语料匹配的装置一般设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的语料匹配的的方法的一个实施例的流程图。所述的语料匹配的方法,包括以下步骤:
S201,从预设的语料库中获取预先收集的所有专业语料。
具体的,预设的语料库预先存储有大量的专业语料,服务器从预设的语料库中获取预先收集的所有专业语料,例如,机器人辅助问诊系统的语料库中预先收集有大量描述疾病症状的专业疾病症状语料,如“渴不欲饮”、“恶风”、“呃逆”等等。
S202,将专业语料输入到预先训练好的语料转化模型,得到专业语料对应的常规语料。
具体的,服务器通过预先训练好的语料转化模型将专业语料转化为对应的常规语料,其中,常规语料相比于专业语料更接近人类的口述语料,例如专业疾病症状语料“渴不欲饮”转化为常规语料“感到口渴但不想喝水”。
其中,语料转化模型可以采用CNN卷积神经网络模型,卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一。卷积神经网络具有表征学习(representation learning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariant classification),因此也被称为“平移不变人工神经网络(Shift-Invariant Artificial Neural Networks,SIANN)”。卷积神经网络仿造生物的视知觉(visual perception)机制构建,可以进行监督学习和非监督学习,其隐含层内的卷积核参数共享和层间连接的稀疏性使得卷积神经网络能够以较小的计算量对格点化(grid-like topology)特征,例如像素和音频进行学习、有稳定的效果且对数据没有额外的特征工程(feature engineering)要求。
S203,对常规语料进行向量转化,得到第一句向量。
S204,获取用户输入的待匹配语料,并对待匹配语料进行向量转化,得到第二句向量。
具体的,服务器在完成专业语料转化成常规语料之后,接收用户终端上传的语料匹配指令,并获取用户输入的待匹配语料和上述的常规语料,通过一个预设的句子编码器分别对常规语料和用户输入的待匹配语料进行向量转化,得到多个第一句向量symptom_embedding以及一个第二句向量user_embedding。
在本实施例中,语料匹配的方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式接收用户终端上传的语料匹配指令。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
S205,计算第一句向量和第二句向量的相似度,得到句向量相似度。
具体的,服务器通过余弦相似度定则分别计算多个第一句向量symptom_embedding和第二句向量user_embedding的相似度,得到多个句向量相似度。
其中,余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估它们的相似度,余弦相似度将向量根据坐标值,绘制到向量空间中,求得它们的夹角,并得出夹角对应的余弦值,此余弦值就可以用来表征,这两个向量的相似性,夹角越小,余弦值越接近于1,它们的方向更加吻合,则越相似。
S206,基于句向量相似度对待匹配语料和专业语料进行语料匹配,输出语料匹配结果。
具体的,服务器通过对多个句向量相似度进行降序排列,并将相似度排序结果中的最大值对应的专业语料作为待匹配语料的语料匹配结果。例如,语料库预先存储有专业语料[A/B/C/D],对专业语料[A/B/C/D]进行语料转化,得到常规语料[a/b/c/d],分别对用户输入语料m与常规语料[a/b/c/d]进行向量转化,并计算向量转化后的用户输入语料m与常规语料[a/b/c/d]的余弦相似度,得到句向量相似度[l1/l2/l3/l4],其中,l1>l2>l3>l4,则专业语料A为用户输入语料m的匹配语料。
在上述实施例中,本申请先通过一个语料转化模型将语料库中的专业语料转化为常规语料,然后再将用户的待匹配语料和常规语料分别进行句向量转换,最后利用余弦相似度定则进行语料匹配,提高了常规口语语料的匹配成功率,丰富人机交互系统的使用场景。
进一步地,在将专业语料输入到预先训练好的语料转化模型,得到专业语料对应的常规语料的步骤之前,还包括:
从语料库中获取相互匹配的历史专业语料和历史常规语料,以构建训练语料;
通过训练语料对预设的初始神经网络模型进行迭代训练,得到训练好的语料转化模型。
具体的,服务器从语料库中获取相互匹配的历史专业语料和历史常规语料,以构建训练语料,并通过训练语料对预设的初始神经网络模型进行迭代训练,得到训练好的语料转化模型。其中,语料库中预先收集有大量相互匹配的历史专业语料和历史常规语料,例如,在机器人辅助问诊系统的语料库中历史专业语料“渴不欲饮”和历史常规语料“感到口渴但不想喝水”构成一个训练语料。
在上述实施例中,本申请通过预先收集的历史专业语料和历史常规语料,构建训练语料,通过训练语料对预设的CNN神经网络模型进行迭代训练,得到训练好的语料转化模型,语料转化模型用于将专业语料转化为常规语料。
进一步地,从语料库中获取相互匹配的历史专业语料和历史常规语料,以构建训练语料的步骤,具体包括:
对历史专业语料进行分词处理,得到第一分词;
对历史常规语料进行分词处理,得到第二分词;
对第一分词和第一分词进行匹配,得到分词匹配结果;
根据分词匹配结果对历史专业语料和历史常规语料进行文本标志符插入处理,得到训练语料。
具体的,服务器先对历史专业语料和历史常规语料进行分词处理,得到第一分词和第二分词,然后对第一分词和第一分词进行分词匹配,得到分词匹配结果,根据分词匹配结果对历史专业语料和历史常规语料进行文本标志符插入处理,得到训练语料。
例如,在上述实施例中,对历史专业语料“渴不欲饮”进行分词处理,得到第一分词“[渴]、[不欲]、[饮]”,对历史常规语料“感到口渴但不想喝水”进行分词处理,得到第二分词“[感到]、[口渴]、[但]、[不想]、[喝水]”,对第一分词和第一分词进行分词匹配,其中,第一分词的“[渴]、[不欲]、[饮]”分别和第二分词的“[口渴]、[不想]、[喝水]”相互匹配,但第二分词的“[感到]、[但]”在第一分词中没有与其相互匹配的词,因此,在进行构建训练语料时,为了保证训练样本的精度,需要在历史专业语料中插入文本标志符padding,即历史专业语料表示为“padding渴padding不欲饮”,这样保证了处理过程中历史专业语料和历史常规语料的语料长度一致。
进一步地,根据分词匹配结果对历史专业语料和历史常规语料进行文本标志符插入处理,得到训练语料的步骤,具体包括:
根据分词匹配结果确定历史专业语料和历史常规语料的分词位置;
比对历史专业语料和历史常规语料的文本长度,并根据分词位置在文本长度较短的语料中插入文本标志符,形成训练语料。
具体的,服务器通过比对第一分词和第二分词,确定历史专业语料和历史常规语料的分词位置,以获得插入文本标志符padding的插入位置文本标志符padding的插入位置,例如,在上述实施例中,通过比对第一分词“[渴]、[不欲]、[饮]”和第二分词“[感到]、[口渴]、[但]、[不想]、[喝水]”可知,需要在第一分词中[渴]的前后分别插入文本标志符padding,在插入文本标志符padding后,通过历史专业语料“padding渴padding不欲饮”和历史常规语料“感到口渴但不想喝水”构成训练语料。
在上述实施例中,通过文本分词和分词匹配确定文本标志符padding的插入位置,通过文本标志符padding使得历史专业语料和历史常规语料的语料长度一致,消除语料长度不一致带来的训练误差,提高语料转化模型的精度。
进一步地,初始神经网络模型包括输入层、卷积层和输出层,通过训练语料对预设的初始神经网络模型进行迭代训练,得到训练好的语料转化模型的步骤,具体包括:
采用输入层对训练语料进行向量转换,得到训练语料向量;
采用卷积层对训练语料向量进行卷积运算,得到特征数据;
将特征数据导入到输出层中进行相似度计算,并输出相似度最大值对应的语料转化识别结果;
利用语料转化识别结果对初始神经网络模型进行迭代更新,得到训练好的语料转化模型。
具体的,初始神经网络模型包括输入层、卷积层和输出层,服务器将训练语料导入初始神经网络模型后,采用输入层对训练语料进行向量转换,得到训练语料向量,采用卷积层对训练语料向量进行卷积运算,得到特征数据,将特征数据导入到输出层中进行相似度计算,并输出相似度最大值对应的语料转化识别结果,利用语料转化识别结果对初始神经网络模型进行迭代更新,得到训练好的语料转化模型。
其中,卷积计算处理过程为,对于一个m*n的向量,构建一个x*n的卷积核,使x*n得卷积核在m*n的向量上滑动运算。例如m的值为5,x的值为1,则卷积核自上而下滑动,x首先与第一行的n维向量相乘并求和,得到一个值,随后x继续往下滑动与第2行,第3行…进行卷积运算,共得到5*1的矩阵,即为卷积结果。
进一步地,利用语料转化识别结果对初始神经网络模型进行迭代更新,得到训练好的语料转化模型的步骤,具体包括:
基于语料转化识别结果与预设标准结果,使用反向传播算法进行拟合,获取预测误差;
将预测误差与预设误差阈值进行比较,若预测误差大于预设误差阈值,则对初始神经网络模型进行迭代更新,直到预测误差小于等于预设误差阈值为止,得到训练好的语料转化模型。
具体的,基于语料转化识别结果与预设标准结果采用初始神经网络模型的损失函数计算预测误差,并使用反向传播算法对模型进行拟合,将预测误差与预设误差阈值进行比较,若预测误差大于预设误差阈值,则对初始神经网络模型进行迭代更新,直到预测误差小于等于预设误差阈值为止,得到训练好的语料转化模型。
其中,反向传播算法(Backpropagation Algorithm)适合于多层神经元网络的一种学习算法,它建立在梯度下降法的基础上。反向传播算法网络的输入输出关系实质上是一种映射关系:一个n输入m输出的BP神经网络所完成的功能是从n维欧氏空间向m维欧氏空间中一有限域的连续映射,这一映射具有高度非线性。
进一步地,基于句向量相似度对待匹配语料和专业语料进行语料匹配,输出语料匹配结果的步骤,具体包括:
对计算得到的句向量相似度进行降序排列,得到相似度排序结果;
将相似度排序结果中的最大值对应的专业语料作为待匹配语料的语料匹配结果,并输出语料匹配结果。
具体的,服务器通过对计算得到的多个句向量相似度进行降序排列,得到相似度排序序列,将相似度排序序列中的相似度最大值对应的专业语料作为待匹配语料的语料匹配结果,并输出语料匹配结果。
在上述实施例中,本申请公开了一种语料匹配的方法,属于人工智能技术领域。通过将专业语料输入到预先训练好的语料转化模型,得到专业语料对应的常规语料,对常规语料进行向量转化,得到第一句向量,获取用户输入的待匹配语料,并对待匹配语料进行向量转化,得到第二句向量,计算第一句向量和第二句向量的相似度,得到句向量相似度,基于句向量相似度对待匹配语料和专业语料进行语料匹配,输出语料匹配结果。本申请先通过一个语料转化模型将语料库中的专业语料转化为常规语料,再将用户的待匹配语料和常规语料进行语料匹配,提高常规口语语料的匹配成功率,丰富人机交互系统的使用场景。
需要强调的是,为进一步保证上述待匹配语料的私密和安全性,上述待匹配语料还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种语料匹配的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的语料匹配的装置包括:
专业语料获取模块301,用于从预设的语料库中获取预先收集的所有专业语料;
专业语料转化模块302,用于将专业语料输入到预先训练好的语料转化模型,得到专业语料对应的常规语料;
第一向量转化模块303,用于对常规语料进行向量转化,得到第一句向量;
第二向量转化模块304,用于获取用户输入的待匹配语料,并对待匹配语料进行向量转化,得到第二句向量;
相似度计算模块305,用于计算第一句向量和第二句向量的相似度,得到句向量相似度;
语料匹配模块306,用于基于句向量相似度对待匹配语料和专业语料进行语料匹配,输出语料匹配结果。
进一步地,该语料匹配的装置还包括:
训练语料构建模块,用于从语料库中获取相互匹配的历史专业语料和历史常规语料,以构建训练语料;
模型迭代训练模块,用于通过训练语料对预设的初始神经网络模型进行迭代训练,得到训练好的语料转化模型。
进一步地,训练语料构建模块具体包括:
第一分词单元,用于对历史专业语料进行分词处理,得到第一分词;
第二分词单元,用于对历史常规语料进行分词处理,得到第二分词;
分词匹配单元,用于对第一分词和第一分词进行匹配,得到分词匹配结果;
文本标志符插入单元,用于根据分词匹配结果对历史专业语料和历史常规语料进行文本标志符插入处理,得到训练语料。
进一步地,文本标志符插入单元具体包括:
分词位置获取子单元,用于根据分词匹配结果确定历史专业语料和历史常规语料的分词位置;
文本标志符插入子单元,用于比对历史专业语料和历史常规语料的文本长度,并根据分词位置在文本长度较短的语料中插入文本标志符,形成训练语料。
进一步地,初始神经网络模型包括输入层、卷积层和输出层,模型迭代训练模块具体包括:
向量转换单元,用于采用输入层对训练语料进行向量转换,得到训练语料向量;
卷积运算单元,用于采用卷积层对训练语料向量进行卷积运算,得到特征数据;
相似度计算单元,用于将特征数据导入到输出层中进行相似度计算,并输出相似度最大值对应的语料转化识别结果;
迭代更新单元,用于利用语料转化识别结果对初始神经网络模型进行迭代更新,得到训练好的语料转化模型。
进一步地,迭代更新单元具体包括:
误差预测子单元,用于基于语料转化识别结果与预设标准结果,使用反向传播算法进行拟合,获取预测误差;
迭代更新子单元,用于将预测误差与预设误差阈值进行比较,若预测误差大于预设误差阈值,则对初始神经网络模型进行迭代更新,直到预测误差小于等于预设误差阈值为止,得到训练好的语料转化模型。
进一步地,语料匹配模块306具体包括:
相似度排序单元,用于对计算得到的句向量相似度进行降序排列,得到相似度排序结果;
语料匹配单元,用于将相似度排序结果中的最大值对应的专业语料作为待匹配语料的语料匹配结果,并输出语料匹配结果。
在上述实施例中,本申请公开了一种语料匹配的装置,属于人工智能技术领域。通过将专业语料输入到预先训练好的语料转化模型,得到专业语料对应的常规语料,对常规语料进行向量转化,得到第一句向量,获取用户输入的待匹配语料,并对待匹配语料进行向量转化,得到第二句向量,计算第一句向量和第二句向量的相似度,得到句向量相似度,基于句向量相似度对待匹配语料和专业语料进行语料匹配,输出语料匹配结果。本申请先通过一个语料转化模型将语料库中的专业语料转化为常规语料,再将用户的待匹配语料和常规语料进行语料匹配,提高常规口语语料的匹配成功率,丰富人机交互系统的使用场景。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如语料匹配的方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述语料匹配的方法的计算机可读指令。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本申请公开了一种计算机设备,属于人工智能技术领域。通过将专业语料输入到预先训练好的语料转化模型,得到专业语料对应的常规语料,对常规语料进行向量转化,得到第一句向量,获取用户输入的待匹配语料,并对待匹配语料进行向量转化,得到第二句向量,计算第一句向量和第二句向量的相似度,得到句向量相似度,基于句向量相似度对待匹配语料和专业语料进行语料匹配,输出语料匹配结果。本申请先通过一个语料转化模型将语料库中的专业语料转化为常规语料,再将用户的待匹配语料和常规语料进行语料匹配,提高常规口语语料的匹配成功率,丰富人机交互系统的使用场景。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的语料匹配的方法的步骤。
本申请公开了一种存储介质,属于人工智能技术领域。通过将专业语料输入到预先训练好的语料转化模型,得到专业语料对应的常规语料,对常规语料进行向量转化,得到第一句向量,获取用户输入的待匹配语料,并对待匹配语料进行向量转化,得到第二句向量,计算第一句向量和第二句向量的相似度,得到句向量相似度,基于句向量相似度对待匹配语料和专业语料进行语料匹配,输出语料匹配结果。本申请先通过一个语料转化模型将语料库中的专业语料转化为常规语料,再将用户的待匹配语料和常规语料进行语料匹配,提高常规口语语料的匹配成功率,丰富人机交互系统的使用场景。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种语料匹配的方法,其特征在于,包括:
从预设的语料库中获取预先收集的所有专业语料;
将所述专业语料输入到预先训练好的语料转化模型,得到所述专业语料对应的常规语料;
对所述常规语料进行向量转化,得到第一句向量;
获取用户输入的待匹配语料,并对所述待匹配语料进行向量转化,得到第二句向量;
计算所述第一句向量和所述第二句向量的相似度,得到句向量相似度;
基于所述句向量相似度对所述待匹配语料和所述专业语料进行语料匹配,输出语料匹配结果。
2.如权利要求1所述的语料匹配的方法,其特征在于,在所述将所述专业语料输入到预先训练好的语料转化模型,得到所述专业语料对应的常规语料之前,还包括:
从所述语料库中获取相互匹配的历史专业语料和历史常规语料,以构建训练语料;
通过所述训练语料对预设的初始神经网络模型进行迭代训练,得到训练好的所述语料转化模型。
3.如权利要求2所述的语料匹配的方法,其特征在于,所述从所述语料库中获取相互匹配的历史专业语料和历史常规语料,以构建训练语料包括:
对所述历史专业语料进行分词处理,得到第一分词;
对所述历史常规语料进行分词处理,得到第二分词;
对所述第一分词和所述第一分词进行匹配,得到分词匹配结果;
根据所述分词匹配结果对所述历史专业语料和所述历史常规语料进行文本标志符插入处理,得到所述训练语料。
4.如权利要求3所述的语料匹配的方法,其特征在于,所述根据所述分词匹配结果对所述历史专业语料和所述历史常规语料进行文本标志符插入处理,得到所述训练语料包括:
根据所述分词匹配结果确定所述历史专业语料和所述历史常规语料的分词位置;
比对所述历史专业语料和所述历史常规语料的文本长度,并根据所述分词位置在文本长度较短的语料中插入所述文本标志符,形成所述训练语料。
5.如权利要求2所述的语料匹配的方法,其特征在于,所述初始神经网络模型包括输入层、卷积层和输出层,通过所述训练语料对预设的初始神经网络模型进行迭代训练,得到训练好的所述语料转化模型包括:
采用所述输入层对所述训练语料进行向量转换,得到训练语料向量;
采用所述卷积层对所述训练语料向量进行卷积运算,得到特征数据;
将所述特征数据导入到所述输出层中进行相似度计算,并输出相似度最大值对应的语料转化识别结果;
利用所述语料转化识别结果对所述初始神经网络模型进行迭代更新,得到训练好的所述语料转化模型。
6.如权利要求1所述的语料匹配的方法,其特征在于,所述利用所述语料转化识别结果对所述初始神经网络模型进行迭代更新,得到训练好的所述语料转化模型包括:
基于所述语料转化识别结果与预设标准结果,使用反向传播算法进行拟合,获取预测误差;
将所述预测误差与预设误差阈值进行比较,若所述预测误差大于预设误差阈值,则对所述初始神经网络模型进行迭代更新,直到所述预测误差小于等于预设误差阈值为止,得到训练好的所述语料转化模型。
7.如权利要求1至6任意一项所述的语料匹配的方法,其特征在于,基于所述句向量相似度对所述待匹配语料和所述专业语料进行语料匹配,输出语料匹配结果包括:
对计算得到的所述句向量相似度进行降序排列,得到相似度排序结果;
将所述相似度排序结果中的最大值对应的专业语料作为所述待匹配语料的语料匹配结果,并输出所述语料匹配结果。
8.一种语料匹配的装置,其特征在于,包括:
专业语料获取模块,用于从预设的语料库中获取预先收集的所有专业语料;
专业语料转化模块,用于将所述专业语料输入到预先训练好的语料转化模型,得到所述专业语料对应的常规语料;
第一向量转化模块,用于对所述常规语料进行向量转化,得到第一句向量;
第二向量转化模块,用于获取用户输入的待匹配语料,并对所述待匹配语料进行向量转化,得到第二句向量;
相似度计算模块,用于计算所述第一句向量和所述第二句向量的相似度,得到句向量相似度;
语料匹配模块,用于基于所述句向量相似度对所述待匹配语料和所述专业语料进行语料匹配,输出语料匹配结果。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的语料匹配的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的语料匹配的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210315997.4A CN114818693A (zh) | 2022-03-28 | 2022-03-28 | 一种语料匹配的方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210315997.4A CN114818693A (zh) | 2022-03-28 | 2022-03-28 | 一种语料匹配的方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114818693A true CN114818693A (zh) | 2022-07-29 |
Family
ID=82530273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210315997.4A Withdrawn CN114818693A (zh) | 2022-03-28 | 2022-03-28 | 一种语料匹配的方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114818693A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107993724A (zh) * | 2017-11-09 | 2018-05-04 | 易保互联医疗信息科技(北京)有限公司 | 一种医学智能问答数据处理的方法及装置 |
CN109002538A (zh) * | 2018-07-20 | 2018-12-14 | 吴怡 | 基于数据库的法律咨询云平台及方法 |
CN110837738A (zh) * | 2019-09-24 | 2020-02-25 | 平安科技(深圳)有限公司 | 相似问识别方法、装置、计算机设备及存储介质 |
CN111061847A (zh) * | 2019-11-22 | 2020-04-24 | 中国南方电网有限责任公司 | 对话生成及语料扩充方法、装置、计算机设备和存储介质 |
CN112347257A (zh) * | 2020-11-11 | 2021-02-09 | 北京嘉和海森健康科技有限公司 | 一种患者症状口语化标准化方法和装置 |
US20220138424A1 (en) * | 2021-03-23 | 2022-05-05 | Beijing Baidu Netcom Science Technology Co., Ltd. | Domain-Specific Phrase Mining Method, Apparatus and Electronic Device |
-
2022
- 2022-03-28 CN CN202210315997.4A patent/CN114818693A/zh not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107993724A (zh) * | 2017-11-09 | 2018-05-04 | 易保互联医疗信息科技(北京)有限公司 | 一种医学智能问答数据处理的方法及装置 |
CN109002538A (zh) * | 2018-07-20 | 2018-12-14 | 吴怡 | 基于数据库的法律咨询云平台及方法 |
CN110837738A (zh) * | 2019-09-24 | 2020-02-25 | 平安科技(深圳)有限公司 | 相似问识别方法、装置、计算机设备及存储介质 |
CN111061847A (zh) * | 2019-11-22 | 2020-04-24 | 中国南方电网有限责任公司 | 对话生成及语料扩充方法、装置、计算机设备和存储介质 |
CN112347257A (zh) * | 2020-11-11 | 2021-02-09 | 北京嘉和海森健康科技有限公司 | 一种患者症状口语化标准化方法和装置 |
US20220138424A1 (en) * | 2021-03-23 | 2022-05-05 | Beijing Baidu Netcom Science Technology Co., Ltd. | Domain-Specific Phrase Mining Method, Apparatus and Electronic Device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109388807B (zh) | 电子病历命名实体识别的方法、装置及存储介质 | |
CN112732911B (zh) | 基于语义识别的话术推荐方法、装置、设备及存储介质 | |
CN112183747B (zh) | 神经网络训练的方法、神经网络的压缩方法以及相关设备 | |
CN109471945B (zh) | 基于深度学习的医疗文本分类方法、装置及存储介质 | |
CN112395979B (zh) | 基于图像的健康状态识别方法、装置、设备及存储介质 | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
WO2021169116A1 (zh) | 智能化的缺失数据填充方法、装置、设备及存储介质 | |
CN111950596A (zh) | 一种用于神经网络的训练方法以及相关设备 | |
CN112418059B (zh) | 一种情绪识别的方法、装置、计算机设备及存储介质 | |
CN111797589A (zh) | 一种文本处理网络、神经网络训练的方法以及相关设备 | |
CN113707299A (zh) | 基于问诊会话的辅助诊断方法、装置及计算机设备 | |
CN113420690A (zh) | 基于感兴趣区域的静脉识别方法、装置、设备及存储介质 | |
CN114241459B (zh) | 一种驾驶员身份验证方法、装置、计算机设备及存储介质 | |
CN115512005A (zh) | 一种数据处理方法及其装置 | |
CN114091452B (zh) | 一种基于适配器的迁移学习方法、装置、设备及存储介质 | |
CN112287069A (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN112632244A (zh) | 一种人机通话的优化方法、装置、计算机设备及存储介质 | |
WO2023116572A1 (zh) | 一种词句生成方法及相关设备 | |
CN112836521A (zh) | 问答匹配方法、装置、计算机设备及存储介质 | |
CN113158656A (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN115510186A (zh) | 基于意图识别的即时问答方法、装置、设备及存储介质 | |
CN114445832A (zh) | 基于全局语义的文字图像识别方法、装置及计算机设备 | |
CN113947095A (zh) | 多语种文本翻译方法、装置、计算机设备及存储介质 | |
CN117557331A (zh) | 一种产品推荐方法、装置、计算机设备及存储介质 | |
CN113643283A (zh) | 一种人体衰老状况的检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220729 |