CN113672701A - 基于机器学习的文本匹配方法、装置、设备及存储介质 - Google Patents

基于机器学习的文本匹配方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113672701A
CN113672701A CN202110983613.1A CN202110983613A CN113672701A CN 113672701 A CN113672701 A CN 113672701A CN 202110983613 A CN202110983613 A CN 202110983613A CN 113672701 A CN113672701 A CN 113672701A
Authority
CN
China
Prior art keywords
text
model
training
implicit
training data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110983613.1A
Other languages
English (en)
Other versions
CN113672701B (zh
Inventor
张颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110983613.1A priority Critical patent/CN113672701B/zh
Publication of CN113672701A publication Critical patent/CN113672701A/zh
Application granted granted Critical
Publication of CN113672701B publication Critical patent/CN113672701B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明用于人工智能领域,涉及区块链领域,公开了一种基于机器学习的文本匹配方法、装置、设备及存储介质,其中,方法包括:接收用户输入的待处理文本,并获取标准文本;将待处理文本与标准文本组成目标文本对,并获取预设梯度提升模型,预设梯度提升模型包括输出隐含主题特征的主题特征层、输出隐式表征的语义特征层;将目标文本对输入预设梯度提升模型中,以获得第一预测值;根据第一预测值确定待处理文本与标准文本的匹配结果;本发明将隐含主题特征、语义的隐式表征引入预设梯度提升模型中,使得预设梯度提升模型具有多种性能特征,从而提高了预设梯度提升模型的预测效果,能够精准匹配到标准文本,以准确地向用户提供相关信息。

Description

基于机器学习的文本匹配方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于机器学习的文本匹配方法、装置、设备及存储介质。
背景技术
随着人工智能技术的发展和越来越多的用户远程就诊需求,目前许多医疗服务系统引入智能化的问答系统,以为用户提供疾病辅助诊断、健康管理、远程会诊等服务。
在医疗服务系统中,用户会在线搜索和问诊以询问疾病、药品等相关医疗问题,为了及时回答用户医疗相关问题,问答系统会将用户问题与数据库中已有的标准问题进行匹配,然后向用户返回匹配到标准问题所对应的答案,其中,现有问答系统中,一般通过关键词或者匹配模型对用户问题与标准问题进行文本匹配。但在实际场景中,同一用户问题具有多种表述方式,现有的关键词和匹配模型等文本匹配方式难以应对用户多样的问题表述,使得用户问题与标准问题的匹配效果较差,难以精确匹配到标准问题,从而导致无法准确地向用户推送相关信息。
发明内容
本发明提供一种基于机器学习的文本匹配方法、装置、设备及存储介质,以解决现有文本匹配方式中文本匹配效果较差,导致无法准确地向用户推送相关信息的问题。
提供一种基于机器学习的文本匹配方法,包括:
接收用户输入的待处理文本,并获取标准文本;
将待处理文本与标准文本组成目标文本对,并获取预设梯度提升模型,预设梯度提升模型包括输出隐含主题特征的主题特征层、输出隐式表征的语义特征层;
将目标文本对输入预设梯度提升模型,以使主题特征层输出目标文本对的隐含主题特征向量、语义特征层输出目标文本对的隐式表征向量,并在全连接层根据隐含主题特征向量和隐式表征向量对目标文本对进行相关性预测,以获得第一预测值;
根据第一预测值确定待处理文本与标准文本的匹配结果。
提供一种基于机器学习的文本匹配装置,包括:
接收模块,用于接收用户输入的待处理文本,并获取标准文本;
获取模块,用于将待处理文本与标准文本组成目标文本对,并获取预设梯度提升模型,预设梯度提升模型包括输出隐含主题特征的主题特征层、输出隐式表征的语义特征层;
输入模块,用于将目标文本对输入预设梯度提升模型,以使主题特征层输出目标文本对的隐含主题特征向量、语义特征层输出目标文本对的隐式表征向量,并在全连接层根据隐含主题特征向量和隐式表征向量对目标文本对进行相关性预测,以获得第一预测值;
确定模块,用于根据第一预测值确定待处理文本与标准文本的匹配结果。
提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于机器学习的文本匹配方法的步骤。
提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于机器学习的文本匹配方法的步骤。
上述基于机器学习的文本匹配方法、装置、设备及存储介质所提供的一个方案中,通过接收用户输入的待处理文本,并获取标准文本;将待处理文本与标准文本组成目标文本对,并获取预设梯度提升模型,预设梯度提升模型包括输出隐含主题特征的主题特征层、输出隐式表征的语义特征层;将目标文本对输入预设梯度提升模型,以使主题特征层输出目标文本对的隐含主题特征向量、语义特征层输出目标文本对的隐式表征向量,并在全连接层根据隐含主题特征向量和隐式表征向量对目标文本对进行相关性预测,以获得第一预测值;根据第一预测值确定待处理文本与标准文本的匹配结果;本发明中,通过引入多种特征工程方法,将隐含主题特征、语义的隐式表征引入预设梯度提升模型中,使得预设梯度提升模型具有多种性能特征,进而使得预设梯度提升模型能够应对用户多样的输入表述,从而提高了预设梯度提升模型的相关性预测效果,进而能够精准匹配到标准文本,以便后续能够依据匹配的标准文本准确地向用户提供相关信息。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中基于机器学习的文本匹配方法的一应用环境示意图;
图2是本发明一实施例中基于机器学习的文本匹配方法的一流程示意图;
图3是图2中步骤S40的一实现流程示意图;
图4是图3中步骤S44的一实现流程示意图;
图5是本发明一实施例中基于机器学习的文本匹配方法的另一流程示意图;
图6是图5中步骤S11的一实现流程示意图;
图7是图6中步骤S112的一实现流程示意图;
图8是图2中步骤S13的一实现流程示意图;
图9是图8中步骤S132的一实现流程示意图;
图10是本发明一实施例中基于机器学习的文本匹配装置的一结构示意图;
图11是本发明一实施例中计算机设备的一结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的基于机器学习的文本匹配方法,可应用在如图1的应用环境中,其中,终端设备通过网络与服务器进行通信。服务器接收用户通过终端设备输入的待处理文本,并获取预先生成的标准文本,然后将待处理文本与标准文本组成目标文本对,并获取预设梯度提升模型,预设梯度提升模型包括输出隐含主题特征的主题特征层、输出隐式表征的语义特征层;将目标文本对输入预设梯度提升模型,以使主题特征层输出目标文本对的隐含主题特征向量、语义特征层输出目标文本对的隐式表征向量,并在全连接层根据隐含主题特征向量和隐式表征向量对目标文本对进行相关性预测,以获得第一预测值;根据第一预测值确定待处理文本与标准文本的匹配结果;本发明中,通过引入多种特征工程方法,将隐含主题特征、语义的隐式表征引入预设梯度提升模型中,使得预设梯度提升模型具有多种性能特征,进而使得预设梯度提升模型能够应对用户多样的输入表述,从而提高了预设梯度提升模型的相关性预测效果,进而能够精准匹配到标准文本,以便后续能够依据匹配的标准文本准确地向用户提供相关信息,保证了推送消息的及时性和准确性,减少误推送的可能,最终进一步提高了问答系统的人工智能化,提高了用户的满意度。
其中,本实施例中的主题特征层为主题模型,主题模型为文档主题生成模型(Latent Dirichlet Allocation,简称LDA)。本实施例中的预设梯度提升模型为极端梯度提升模型(Extreme Gradient Boosting,简称XGBoost)。本实施例中的语义特征层为语言模型,语言模型为基于转换器的双向编码表征模型(Bidirectional EncoderRepresentation from Transformers,简称BERT)。
其中,预先生成的标准文本、预设梯度提升模型等相关数据存储在服务器的区块链数据库中,以便在执行基于机器学习的文本匹配方法时,可以直接将相关信息进提取,方便快捷。
本实施例中的区块链数据库存储于区块链网络中,用于存储基于机器学习的文本匹配方法中用到、生成的数据,如标准文本、预设梯度提升模型和第一预测值等相关数据。本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。将数据库部署于区块链可提高数据存储的安全性。
此外,本实施例中基于机器学习的文本匹配方法,可以应用于医疗服务场景中,例如智能诊疗、远程会诊等场景,标准文本和待处理文本均为医疗领域相关文本,预设梯度提升模型为基于医疗数据进行机器学习获得的预测模型。
其中,终端设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
上述基于机器学习的文本匹配方法、装置、设备及存储介质所提供的一个方案中,
在一实施例中,如图2所示,提供一种基于机器学习的文本匹配方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
S10:获取用户输入的待处理文本,并获取标准文本。
服务器接收用户用过终端设备输入的待处理文本,然后在区块链数据库中获取预先生成的标准文本。
其中,标准文本为专家团队根据需求预先生成的模板文本。例如,在医疗场景红,标准文本为专家团队根据用户的远程会诊、智能诊疗等实际需求预先生成的医疗相关问题文本。
S20:将待处理文本与标准文本组成目标文本对,并获取预设梯度提升模型。
在获取待处理文本和标准文本之后,将待处理文本与标准文本组成目标文本对,同时,还需要获取预设梯度提升模型,预设梯度提升模型包括输出的隐含主题特征的主题特征层、输出隐式表征的语义特征层,以及全连接层。其中,语义特征层可以由多个BERT模型构成,语义特征层输出的隐式表征为多个BERT模型输出的隐式表征。
S30:将目标文本对输入预设梯度提升模型,以使主题特征层输出目标文本对的隐含主题特征向量、语义特征层输出目标文本对的隐式表征向量,并在全连接层根据隐含主题特征向量和隐式表征向量对目标文本对进行相关性预测,以获得第一预测值。
在获得预设梯度提升模型之后,将待处理文本与标准文本组成的目标文本对输入至预设梯度提升模型,以使预设梯度提升模型对输入的目标文本对进行相关性预测,从而获得预设梯度提升模型对目标文本对进行相关性预测的第一预测值。在将待处理文本与标准文本组成的目标文本对输入至预设梯度提升模型之后,预设梯度提升模型的主题特征层对目标文本对进行隐含主题特征提取,以输出目标文本对的隐含主题特征向量,同时预设梯度提升模型的语义特征层对目标文本对进行隐式表征提取,以输出目标文本对的隐式表征向量,然后在预设梯度提升模型的全连接层对隐式表征向量和隐含主题特征向量进行融合,以实现对目标文本对进行相关性预测,从而获得第一预测值。
在其他实施例中,预设梯度提升模型还包括输出文本相似度的相似度特征层。其中,文本相似度包括但不限于编辑距离、莱文斯坦比距离、杰卡德(jaccard)距离。
在将待处理文本与标准文本组成的目标文本对输入至预设梯度提升模型之后,主题特征层对目标文本对进行隐含主题特征提取,以输出目标文本对的隐含主题特征向量,同时语义特征层对目标文本对进行隐式表征提取,以输出目标文本对的隐式表征向量,同时相似度特征层对目标文本对进行文本相似度计算,以输出目标文本对的文本相似度特征向量,然后在预设梯度提升模型的全连接层对文本相似度特征向量、隐式表征向量和隐含主题特征向量进行融合计算,以实现对目标文本对进行相关性预测,从而获得第一预测值。本实施例中,通过在预设梯度提升模型增加相似度特征层,进一步增加了预设梯度提升模型的特征提取性能,进而提高了预设梯度提升模型进行相关性预测的准确性。
其中,预测值为一个0-1之间的值,用于表示两个文本之间的相关概率,预测值越大,两个文本之间的相关性越高,两个文本越匹配。
S40:根据目标预测值确定待处理文本与标准文本的匹配结果。
在获取预设梯度提升模型对目标文本对进行相关性预测的第一预测值之后,根据第一预测值确定待处理文本与标准文本的匹配结果。其中,第一预测值越大,待处理文本与标准文本之间的相关性越高,待处理文本与标准文本则越匹配。
当确定待处理文本与标准文本的匹配结果为匹配时,在区块链数据库中获取标准文本对应的信息,并将标准文本对应的信息直接推送给用户,提高信息推送的及时性;当确定待处理文本与标准文本的匹配结果为不匹配时,则在区块链数据库中继续获取下一标准文本并进行相关性预测,直至待处理文本与标准文本的匹配结果为匹配,以将标准文本对应的信息直接推送给用户。
例如,若第一预测值为1,表示待处理文本与标准文本的相关性很高,待处理文本与标准文本的匹配结果为匹配,则在区块链数据库中获取该标准文本对应的信息,并将该标准文本对应的信息直接推送给用户;若第一预测值为0,表示待处理文本与标准文本的相关性极低甚至不相关,待处理文本与标准文本的匹配结果为不匹配,则在区块链数据库中继续获取下一标准文本并进行相关性预测,直至待处理文本与标准文本的匹配结果为匹配,以将标准文本对应的信息直接推送给用户。
在一实施例中,当确定待处理文本与标准文本的匹配结果为匹配时,依次将待处理文本与区块链数据库中的所有标准文本进行相关性预测,获得待处理文本与每一标准文本之间的第一预测值,将最大第一预测值所对应的标准文本作为目标标准文本,然后将目标标准文本对应的信息推送给用户,保证推送信息的准确性。
例如,待处理文本与各标准文本之间的第一预测值为0、0.1、0.3、0.8、0.9、0.4、0.1、1、0.5、0.7、0.2,1为最大的第一预测值,因此将第一预测值1所对应的标准文本作为目标标准文本,然后将目标标准文本对应的信息推送给用户。
本实施例中,待处理文本与各标准文本之间的第一预测值为0、0.1、0.3、0.8、0.9、0.4、0.1、1、0.5、0.7、0.2仅为示例性说明,在其他实施例中,待处理文本与各标准文本之间的第一预测值还可以是其他数值,在此不再赘述。
本实施例中,通过获取用户输入的待处理文本,并获取预先生成的标准文本;将待处理文本与标准文本组成目标文本对,并获取预设梯度提升模型;将目标文本对输入预设梯度提升模型,以使主题特征层输出目标文本对的隐含主题特征向量、语义特征层输出目标文本对的隐式表征向量,并在全连接层根据主题特征向量和隐式表征向量对目标文本对进行相关性预测,以获得第一预测值;根据第一预测值确定待处理文本与标准文本的匹配结果;通过引入多种特征工程方法,将BERT模型输出的隐式表征、主题模型输出的隐含主题特征引入预设梯度提升模型中,使得预设梯度提升模型具有主题模型和语音模型的性能特征,使得预设梯度提升模型能够应对用户多样的输入表述,能够覆盖大部分用户的输入情况,提高了预设梯度提升模型的相关性预测效果,减少了采用预测模型因无法应该对用户不同表述所导致的匹配效果差的问题,从而能够精准匹配到标准文本,进而能够依据匹配的标准文本准确地向用户提供相关信息。
在一实施例中,如图3所示,步骤S40中,即根据第一预测值确定待处理文本与标准文本的匹配结果,具体包括如下步骤:
S41:将目标文本对输入BERT模型中,以获得BERT模型对目标文本对进行相关性预测的第二预测值。
本实施例中,在将待处理文本与标准文本组成的目标文本对输入预设梯度提升模型,以获得预设梯度提升模型对目标文本对进行相关性预测的第一预测值的同时,还需要将目标文本对输入BERT模型,以使BERT模型对目标文本进行相关性预测,从而获得第二预测值。
S42:确定预设梯度提升模型对应的权重,并确定BERT模型对应的权重。
在获得预设梯度提升模型输出的第一预测值、BERT模型输出的第二预测值之后,确定预设梯度提升模型对应的权重,并确定BERT模型对应的权重。
其中,预设梯度提升模型对应的权重与BERT模型对应的权重不同。
S43:根据第一预测值、第二预测值,以及预设梯度提升模型对应的权重和BERT模型对应的权重,确定目标预测值。
在确定预设梯度提升模型对应的权重、BERT模型对应的权重之后,根据预设梯度提升模型输出的第一预测值、BERT模型输出的第二预测值,以及预设梯度提升模型对应的权重和BERT模型对应的权重,确定目标预测值。
S44:根据目标预测值确定待处理文本与标准文本的匹配结果。
在确定目标预测值之后,根据目标预测值确定待处理文本与标准文本的匹配结果,目标预测值的值越大,待处理文本与标准文本的相关性越高,则待处理文本与标准文本的越匹配。
其中,先确定子模型输出的预测值与对应的权重之间的乘积,作为子预测值,以获得多个子预测值,再将多个子预测值相加,获得目标预测值。
本实施例中,通过将目标文本对输入BERT模型中,以获得BERT模型对目标文本对进行相关性预测的第二预测值;然后确定预设梯度提升模型对应的权重,并确定BERT模型对应的权重;再根据第一预测值、第二预测值,以及预设梯度提升模型对应的权重和BERT模型对应的权重,确定目标预测值,最后根据目标预测值确定待处理文本与标准文本的匹配结果,明确了根据第一预测值确定所述待处理文本与标准文本的匹配结果的具体过程,,通过根据预设梯度提升模型输出的第一预测值、BERT模型输出的第二预测值,以及预设梯度提升模型对应的权重和BERT模型对应的权重,确定目标预测值,进一步提高了目标预测值的准确性,从而能够准确性地向用户推送相关信息。
在一实施例中,BERT模型的数量为多个。例如,BERT模型的数量为4个,则多个BERT模型包括第一BERT模型、第二BERT模型、第三BERT模型和第四BERT模型,第一BERT模型、第二BERT模型、第三BERT模型和第四BERT模型的训练数据存在交集。
在将待处理文本与标准文本组成的目标文本对输入预设梯度提升模型,以获得预设梯度提升模型对目标文本对进行相关性预测的第一预测值的同时,将目标文本对分别输入第一BERT模型、第二BERT模型、第三BERT模型和第四BERT模型,以使第一BERT模型、第二BERT模型、第三BERT模型和第四BERT模型分别对目标文本对进行相关性预测的预测值,以获得第一BERT模型、第二BERT模型、第三BERT模型和第四BERT模型分别输出的分别为第二预测值、第三预测值、第四预测值和第五预测值。
然后,确定预设梯度提升模型对应的权重,记为第一权重,并分别确定第一BERT模、第二BERT模型、第三BERT模型和第四BERT模型对应的权重,将第一BERT模、第二BERT模型、第三BERT模型和第四BERT模型对应的权重,依次记为第二权重、第三权重、第四权重和第五权重;根据第一预测值、第二预测值、第三预测值、第四预测值和第五预测值,以及第一权重、第二权重、第三权重、第四权重和第五权重,计算获得目标预测值,提高了目标预测值的准确性,进而根据更加准确的目标预测值确定待处理文本与标准文本的匹配结果,从而提高了匹配结果的准确性。
其中,第一预测值、第二预测值、第三预测值、第四预测值和第五预测值分别为S1、S2、S3、S4、S5,预设梯度提升模型、第一BERT模型、第二BERT模型、第三BERT模型、第四BERT模型分别对应的权重为W1、W2、W3、W4、W5,则目标预测值的计算公式为:
S=S1*W1+S2*W2+S3*W3+S4*W4+S5*W5;
其中,S为目标预测值。
为确保目标预测值的准确性,预设梯度提升模型对应的权重需要大于各BERT模型对应的权重,即W1的数值最大。预设梯度提升模型对应的权重最大,使得目标预测值更偏向预设梯度提升模型的预测值,提高了目标预测值的准确性。
本实施例中,多个BERT模型包括第一BERT模型、第二BERT模型、第三BERT模型和第四BERT模型仅为示例性说明,在其他实施例中,多个BERT模型的组合方式还可以是其他,例如,多个BERT模型还可以包括第一BERT模型、第二BERT模型;多个BERT模型还可以包括第一BERT模型、第三BERT模型;多个BERT模型还可以包括第一BERT模型、第四BERT模型;多个BERT模型还可以包括第二BERT模型、第三BERT模型;多个BERT模型还可以包括第二BERT模型、第四BERT模型;多个BERT模型还可以包括第三BERT模型、第四BERT模型等。
本实施例中,在将待处理文本与标准文本组成的目标文本对输入预设梯度提升模型,以获得预设梯度提升模型对目标文本对进行相关性预测的第一预测值的同时,还需要将目标文本对分别输入多个BERT模型,以获得多个BERT模型输出的预测值,进而根据多个预测值和对应权重计算目标预测值,提高了目标预测值的准确性,进而根据更加准确的目标预测值确定待处理文本与标准文本的匹配结果,从而提高了匹配结果的准确性。
在一实施例中,如图4所示,步骤S44中,即根据目标预测值确定待处理文本与标准文本的匹配结果,具体包括如下步骤:
S441:确定待处理文本的文本类型,并根据待处理文本的文本类型确定待处理文本的相关性预测阈值。
在获取用户输入的待处理文本之后,需要确定待处理文本的文本类型,然后根据待处理文本的文本类型确定待处理文本的相关性预测阈值。
不同的文本类型具有不同的相关性预测阈值,以对应不同场景的需求。
例如,文本类型包括医疗文本和普通文本,由于在医疗场景中要求较为精准,涉及到用户健康,因此医疗文本对应的相关性预测阈值,需要大于普通文本的相关性预测阈值,普通文本的相关性预测阈值为0.6,则医疗文本对应的相关性预测阈值需要大于0.6.比如为0.7、0.8、0.9等,以确保后续推送消息的准确性。
本实施例中,普通文本的相关性预测阈值为0.6,医疗文本对应的相关性预测阈值为0.7、0.8、0.9仅为示例性说明,在其他实施例中,普通文本的相关性预测阈值还可以是其他数值,医疗文本对应的相关性预测阈值还可以是其他数值,在此不再赘述。
S442:确定目标预测值是否小于相关性预测阈值。
在确定待处理文本与标准文本之间相关性的目标预测值,并确定待处理文本的相关性预测阈值之后,确定目标预测值是否小于相关性预测阈值。
S443:若目标预测值小于相关性预测阈值,则确定待处理文本与标准文本的匹配结果为不匹配。
在确定目标预测值是否小于相关性预测阈值之后,若目标预测值小于相关性预测阈值,表示待处理文本与标准文本之间的相关性不满足匹配要求,则确定待处理文本与标准文本的匹配结果为不匹配。
S444:若目标预测值大于或者等于相关性预测阈值,则确定待处理文本与标准文本的匹配结果为匹配。
在确定目标预测值是否小于相关性预测阈值之后,若目标预测值大于或者等于相关性预测阈值,表示待处理文本与标准文本之间的相关性满足匹配要求,则确定待处理文本与标准文本的匹配结果为匹配。
例如,以待处理文本为医疗文本为例,医疗文本对应的相关性预测阈值为0.7,当确定待处理文本与标准文本之间相关性的目标预测值之后,若目标预测值为0.5,0.5小于0.7,表示待处理文本与标准文本之间的相关性不满足匹配要求,则确定待处理文本与标准文本的匹配结果为不匹配;若目标预测值为0.75,0.75大于0.7,表示待处理文本与标准文本之间的相关性满足匹配要求,则确定待处理文本与标准文本的匹配结果为匹配。
本实施例中,通过确定待处理文本的文本类型,并根据待处理文本的文本类型确定待处理文本的相关性预测阈值,并确定目标预测值是否小于相关性预测阈值,若目标预测值小于相关性预测阈值,则确定待处理文本与标准文本的匹配结果为不匹配;若目标预测值大于或者等于相关性预测阈值,则确定待处理文本与标准文本的匹配结果为匹配,明确了根据目标预测值确定待处理文本与标准文本的匹配结果的具体过程,通过对目标预测值与相关性预测阈值进行大小比较,可以快速得到待处理文本与标准文本的匹配结果,进而可以快速向用户推送相关信息,在保证推送信息与用户输入对应的基础上,提高了系统响应速度。
在一实施例中,在对目标文本对进行相关性预测之前,还需要获取语言模型(本实施例中的语言模型包括多个BERT模型)和主题模型,以根据语言模型和主题模型确定预设梯度提升模型。如图5所示,步骤S10之前,即在获取用户输入的待处理文本之前,该基于机器学习的文本匹配方法还包括如下步骤:
S11:训练获得多个BERT模型。
在获取用户输入的待处理文本之前,需要先训练获得多个BERT模型,多个BERT模型可以是第一BERT模型、第二BERT模型、第三BERT模型和第四BERT模型四个模型的任意组合。BERT模型能够从无标记数据集中预训练得到,在训练数据较少的使用场景(如医疗场景)中容易训练获得,且具有较好的预测准确率。
S12:训练获得主题模型。
在获取用户输入的待处理文本之前,还需要预先训练获得主题模型。其中,本实施例中的主题模型为LDA模型。LDA模型是一种基于无监督学习算法的主题模型,在训练时采用无标签文本的训练集,训练时设置隐含主题数量K即可,LDA模型可以识别出同一主题的不同文字表述下,能够覆盖较多的用户输入情况。
S13:根据主题模型输出的隐含主题特征、多个BERT模型输出的隐式表征和预设训练数据训练极端梯度提升模型,以获得预设梯度提升模型。
在获取主题模型和多个BERT模型之后,获取预设训练数据,将预设训练数据输入主题模型,获得针对预设训练数据输出的隐含主题特征,同时将预设训练数据输入多个BERT模型,获得多个BERT模型针对将预设训练数据输出的隐式表征,将主题模型输出的隐含主题特征、多个BERT模型输出的隐式表征作为极端梯度提升模型的输入,并基于预设训练数据的标签训练极端梯度提升模型,从而获得预设梯度提升模型。本实施例中,预设训练数据的标签包括人工标注校对后的主题标签和语义标签,在其他实施例中,还包括训练文本对的文本相似度标签等其他标签。
需要预先训练出主题模型和多个BERT模型,然后将主题模型作为极端梯度提升模型的主题特征层,以输出隐含主题特征。并将多个BERT模型作为极端梯度提升模型的语义特征层,以输出隐式表征,然后基于预设训练数据对极端梯度提升模型进行机器学习以训练获得预设梯度提升模型,以便后续根据预设梯度提升模型对待处理文本和标准文本进行相关性预测。
本实施例中,通过训练获得多个BERT模型,并训练获得主题模型,然后根据主题模型输出的隐含主题特征、多个BERT模型输出的隐式表征和预设训练数据训练极端梯度提升模型,以获得预设梯度提升模型,细化了预设梯度提升模型的步骤,为后续对目标文本对进行相关性预测提供了基础。
在一实施例中,如图6所示,步骤S11中,即训练获得多个BERT模型,具体包括如下步骤:
S111:获取第一训练数据,并获取历史用户输入的多个输入文本和多个输入文本对应的多个标准文本。
首先,获取第一训练数据,并获取历史用户输入的大量输入数据,从大量输入数据中提取出多个输入文本,并确定多个输入文本对应的多个标准文本。
其中,第一训练数据为对训练文本对进行相关性标注后的文本数据。当某个文本类型的原始文本较少时,需要对原始文本进行人工扩展为多个扩展文本,并对原始文本与扩展文本之间的相关性进行人工标注后作为训练文本,以获得第一训练数据。对原始文本进行人工扩展,可以起到扩充上下文,提高训练模型对文本的语义理解的作用。
例如,以文本类型为医疗文本为例进行说明,第一原始文本为:高血压的饮食,对第一原始文本进行扩展,获得第一扩展文本:高血压能吃啥不能吃啥,则对第一原始文本与第一扩展文本进行相关性的人工标注,标注标签为相关;第二原始文本2为:乙肝小三阳怎么办,对第二原始文本进行扩展,获得第二扩展文本:第二原始文本2为:乙肝大三阳怎么办,则对第二原始文本与第二扩展文本进行相关性的人工标注,标注标签为不相关。
本实施例中,原始文本、扩展文本和标注标签仅为示例性说明,在其他实施例中,原始文本和扩展文本还可以是其他,对应的标注标签还可以是其他,在此不再赘述。
S112:对第一训练数据、多个输入文本和多个标准文本进行预处理,以获得第二训练数据和第三训练数据。
在获得第一训练数据、多个输入文本和多个标准文本之后,对第一训练数据、多个输入文本和多个标准文本进行预处理,以将输入文本和标准文本之间的相关性进行标注,获得第二训练数据和第三训练数据,其中,第二训练数据和第三训练数据为利用不同预测模型生成相关性预测结果标签的两组训练数据。
例如,可以基于第一训练数据训练获得两个不同的预训练模型:第一预训练模型和第二预训练模型,然后将K1个输入文本和K2个标准文本,两两组成训练文本对,获得K1*K2个训练文本对;将K1*K2个训练文本对依次输入第一预训练模型,获得第一预训练模型对各训练文本对的相关性预测结果,并将第一预训练模型对各训练文本对的相关性预测结果,作为该训练文本对的相关性标签,以获得第二训练数据;将K1*K2个训练文本对依次输入第二预训练模型,获得第二预训练模型对各训练文本对的相关性预测结果,并将第二预训练模型对各训练文本对的相关性预测结果,作为该训练文本对的相关性标签,以获得第三训练数据。由于第一预训练模型和第二预训练模型为不同的模型,所以第一预训练模型和第二预训练模型对相同训练文本对的相关性预测结果不同,使得第二训练数据和第三训练数据的数据不尽相同,即可获得不完全相同的、大量的训练数据,保证训练数据的多样性,减少训练数据的偏心。
S113:根据第一训练数据、第二训练数据和第三训练数训练获得语言模型。
在获得第二训练数据和第三训练数之后,根据第一训练数据、第二训练数据和第三训练数训练获得语言模型。
在其他实施例中,还可以根据第一训练数据、第二训练数据和第三训练数训练获得多个BERT模型,作为多个语言模型,然后将多个BERT模型输出的隐式表征确定预设梯度提升模型的主题特征层。
例如,基于第一训练数据训练获得第一BERT模型;基于第一训练数据、第二训练数据训练获得第二BERT模型;基于第一训练数据、第三训练数据训练获得第三BERT模型;基于第一训练数据、第二训练数据和第三训练数训练获得第四BERT模型。在其他实施例中,还可以根据第二训练数据和第三训练数训练获得第五BERT模型。当利用第一BERT模型、第二BERT模型、第三BERT模型和第四BERT模型,对待处理文本与标准文本组成的目标文本进行相关性预测时,第一BERT模型对应的权重大于第四BERT模型对应的权重;第四BERT模型对应的权重大于第二BERT模型对应的权重,且第四BERT模型对应的权重大于第三BERT模型对应的权重;其中,第二BERT模型对应的权重可以与第三BERT模型对应的权重相等。
本实施例中,通过获取第一训练数据,并获取历史用户输入的多个输入文本和多个输入文本对应的多个标准文本;然后对第一训练数据、多个输入文本和多个标准文本进行预处理,以获得第二训练数据和第三训练数据,第二训练数据和第三训练数据为利用不同预测模型生成相关性预测结果标签的两组训练数据;再根据第一训练数据、第二训练数据和第三训练数训练获得语言模型,细化了获取语言模型的具体过程,为后续预设梯度提升模型的获取提供了基础。
在一实施例中,获得同一类型场景下历史用户输入的多个输入文本,并获得多个输入文本对应的多个标准文本,基于多个输入文本和多个输入文本对应的多个标准文本训练获得LDA模型,采用场景相同、无标签的多个输入文本和对应的多个标准文本作为训练数据,能够充分利用本领域的知识,确保LDA模型的精度,进而保证后续预设梯度提升模型的精度。
例如,获取医疗场景下的医疗输入文本和对应的医疗标准文本训练获得LDA模型,将医疗领域知识用于LDA模型,进而利用到后续的预先梯度提升模型,可以起到扩充上下文的作用,增加用户输入描述,能够提高后续训练模型的语义理解性能,能够覆盖更多的用户表述,从而提高了模型的匹配效果。
在一实施例中,如图7所示,步骤S112中,即对第一训练数据、多个输入文本和多个标准文本进行预处理,以获得第二训练数据和第三训练数据,具体包括如下步骤:
S1121:基于第一训练数据训练获得第一预训练模型和第二预训练模型。
基于第一训练数据训练获得第一预训练模型和第二预训练模型,其中,第一预训练模型和第二预训练模型为两个参数不同的预训练语言模型,以确保第一预训练模型和第二预训练模型不同。第一预训练模型和第二预训练模型可以为两个参数不同的BERT模型,以与后续训练的多个BERT模型契合。
S1122:将多个输入文本与多个标准文本进行随机配对,以获得多组模型文本对。
在获得第一预训练模型和第二预训练模型之后,将多个输入文本与多个标准文本进行随机配对,以获得多组模型文本对。例如,输入文本的数量为K1,标准文本为K2,则模型文本对的数量为K1*K2。
S1123:将多组模型文本对分别输入第一预训练模型,以获得第一预训练模型对各组模型文本对进行相关性预测的相关性预测结果。
在获得多组模型文本对之后,将多组模型文本对依次对输入第一预训练模型,获得第一预训练模型对各多组模型文本对的相关性预测结果。
S1124:将多组模型文本对输入第二预训练模型,以获得第二预训练模型对模型文本对进行相关性预测的相关性预测结果。
在获得多组模型文本对之后,将多组模型文本对依次输入第二预训练模型,获得第二预训练模型对模型文本对进行相关性预测的相关性预测结果。
S1125:根据第一预训练模型对各组模型文本对的相关性预测结果,设置各组模型文本对的标签,获得第二训练数据。
在获得第一预训练模型对各多组模型文本的相关性预测结果之后,根据第一预训练模型对各组模型文本对的相关性预测结果,设置各组模型文本对的标签,获得第二训练数据。
S1126:根据第二预训练模型对各组模型文本对的相关性预测结果,设置各组模型文本对的标签,获得第三训练数据。
在获得第二预训练模型对各多组模型文本的相关性预测结果之后,根据第二预训练模型对各组模型文本对的相关性预测结果,设置各组模型文本对的标签,获得第三训练数据。
本实施例中,基于一个小的标注数据集训练两个不同的预训练模型,将易获得的大规模无标签数据(多个输入文本和标准文本)作为预训练模型的输入进行相关性预测,从而可以根据预测结果获得大量的有标签数据,以便用于下一步的模型训练中,本实施例中生成的训练数据丰富度高,具有较好的文本多样性,能够覆盖更多的实际用户输入情况,使得在后续步骤中据此训练获得的模型(多个BERT模型、预设梯度提升模型)能够覆盖更多的实际用户输入情况,提高了模型的精度,进而提高了文本匹配效果。
本实施例中,基于第一训练数据训练获得第一预训练模型和第二预训练模型,第一预训练模型和第二预训练模型为两个参数不同的预训练语言模型,然后将多个输入文本与多个标准文本进行随机配对,以获得多组模型文本对,将多组模型文本对分别输入第一预训练模型,以获得第一预训练模型对各组模型文本对进行相关性预测的相关性预测结果,并将多组模型文本对输入第二预训练模型,以获得第二预训练模型对模型文本对进行相关性预测的相关性预测结果,再根据第一预训练模型对各组模型文本对的相关性预测结果,设置各组模型文本对的标签,获得第二训练数据;最后根据第二预训练模型对各组模型文本对的相关性预测结果,设置各组模型文本对的标签,获得第三训练数据,明确了对第一训练数据、多个输入文本和多个标准文本进行预处理,以获得第二训练数据和第三训练数据的具体步骤,为后续根据多个BERT模型的获得提供了基础。
在一实施例中,如图8所示,步骤S13中,即根据主题模型输出的隐含主题特征、多个BERT模型输出的隐式表征和预设训练数据训练极端梯度提升模型,以获得预设梯度提升模型,具体包括如下步骤:
S131:将主题模型作为极端梯度提升模型的主题特征层,并将多个BERT模型作为极端梯度提升模型的语义特征层。
在获取主题模型和多个BERT模型之后,将主题模型作为极端梯度提升模型(XGBoost模型)的主题特征层,并将多个BERT模型(语言模型)作为极端梯度提升模型的语义特征层。
S132:将第一训练数据输入主题特征层和语义特征层,以获得主题特征层输出的隐含主题特征和语义特征层输出的隐式表征。
获得经人工标注的第一训练数据之后,将第一训练数据分别输入主题特征层和语义特征层,即将第一训练数据分别输入主题模型和多个BERT模型,以获得主题模型(主题特征层)针对第一训练数中各训练文本输出的隐含主题特征,并获得多个BERT模型(语义特征层)针对第一训练数中各训练文本输出的隐式表征。
S133:将隐含主题特征和隐式表征进行向量拼接后获得拼接向量,并将拼接向量输入极端梯度提升模型的全连接层进行相关性预测,以获得初始预测结果。
在获得主题特征层输出的隐含主题特征和语义特征层输出的隐式表征之后,将隐含主题特征和隐式表征进行向量拼接后获得拼接向量,并将拼接向量输入极端梯度提升模型的全连接层,以对拼接向量进行相关性预测,以获得初始预测结果。
S134:根据初始预测结果和第一训练数据的标签对极端梯度提升模型的参数进行迭代优化,以获得预设梯度提升模型。
在获得初始预测结果之后,根据初始预测结果和第一训练数据的标签对极端梯度提升模型的参数进行迭代优化,以获得预设梯度提升模型。其中,需要将初始预测结果与第一训练数据的标签进行比较,确定出极端梯度提升模型的损失值,然后确定损失值是否达到收敛条件,在损失值未达到收敛条件时,迭代更新极端梯度提升模型的初始参数,直至损失值达到收敛条件,则完成对极端梯度提升模型的参数的迭代优化,则将收敛之后的极端梯度提升模型记录为预设梯度提升模型。
本实施例中,将主题模型作为极端梯度提升模型的主题特征层,并将语言模型作为极端梯度提升模型的语义特征层;将第一训练数据输入主题特征层和语义特征层,以获得主题特征层输出的隐含主题特征和语义特征层输出的隐式表征;将隐含主题特征和隐式表征进行向量拼接后获得拼接向量,并将拼接向量输入极端梯度提升模型的全连接层进行相关性预测,以获得初始预测结果;根据初始预测结果和第一训练数据的标签对极端梯度提升模型的参数进行迭代优化,以获得预设梯度提升模型,细化了根据主题模型输出的隐含主题特征、多个BERT模型输出的隐式表征和预设训练数据训练极端梯度提升模型,以获得预设梯度提升模型的具体步骤,明确了预设梯度提升模型的获取方式,为后续对待处理文本与标准文本的相关性预测提供了基础。
在一实施例中,预设梯度提升模型还包括输出文本相似度的相似度特征层。如图9所示,步骤S133中,即将隐含主题特征和隐式表征进行向量拼接后获得拼接向量,并将拼接向量输入极端梯度提升模型的全连接层进行相关性预测,以获得初始预测结果,具体包括如下步骤:
S1331:将第一训练数据中的训练文本对输入极端梯度提升模型的相似度特征层,以获得相似度特征层输出的文本相似度。
在获得第一训练数据之后,将第一训练数据中的训练文本对输入极端梯度提升模型的相似度特征层,以使相似度特征层对训练文本对进行相似度计算后,输出训练文本对之间的文本相似度,从而获得第一训练数据中各训练文本对的相似度。其中,该文本相似度包括但不限于文本之间的编辑距离、莱文斯坦比距离、杰卡德(jaccard)距离。
以编辑距离为例,需要确定第一训练数据中各训练文本对之间的编辑距离或者莱文斯坦比距离或者jaccard距离,作为各训练文本对之间的文本相似度。
S1332:将文本相似度、隐含主题特征和隐式表征进行向量拼接,以获得拼接向量,并将拼接向量输入极端梯度提升模型的全连接层进行相关性预测,以获得初始预测结果。
在获得主题特征层输出的隐含主题特征和语义特征层输出的隐式表征,并获得相似度特征层输出的文本相似度之后,将文本相似度、隐含主题特征和隐式表征进行向量拼接,从而获得拼接向量。在将文本相似度、隐含主题特征和隐式表征进行向量拼接,以获得拼接向量之后,将拼接向量输入极端梯度提升模型的全连接层,以对拼接向量进行相关性预测,以获得初始预测结果。
本实施例中,通过将第一训练数据中的训练文本对输入极端梯度提升模型的相似度特征层,以获得相似度特征层输出的文本相似度,并将文本相似度、隐含主题特征和隐式表征进行向量拼接,以获得拼接向量,然后将拼接向量输入极端梯度提升模型的全连接层进行相关性预测,以获得初始预测结果,细化了获得极端梯度提升模型的具体步骤,新增了相似度特征层,以第一训练数据中训练文本对之间的文本相似度、隐含主题特征和隐式表征作为极端梯度提升模型的输入,进一步提高了预设梯度提升模型的适应性,能够覆盖更多的实际用户输入情况,进一步提高了预设梯度提升模型的精度,从而提高了文本匹配效果。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种基于机器学习的文本匹配装置,该基于机器学习的文本匹配装置与上述实施例中基于机器学习的文本匹配方法一一对应。如图10所示,该基于机器学习的文本匹配装置包括接收模块101、获取模块102、输入模块103和确定模块104。各功能模块详细说明如下:
接收模块101,用于接收用户输入的待处理文本,并获取标准文本;
获取模块102,用于将待处理文本与标准文本组成目标文本对,并获取预设梯度提升模型,预设梯度提升模型包括输出隐含主题特征的主题特征层、输出隐式表征的语义特征层;
输入模块103,用于将目标文本对输入预设梯度提升模型,以使主题特征层输出目标文本的隐含主题特征向量、语义特征层输出目标文本的隐式表征向量,并在全连接层根据隐含主题特征向量和隐式表征向量对目标文本对进行相关性预测,以获得第一预测值;
确定模块104,用于根据第一预测值确定待处理文本与标准文本的匹配结果。
进一步地,输入模块103具体用于:
将目标文本输入BERT模型中,以获得BERT模型对目标文本对进行相关性预测的第二预测值;
确定预设梯度提升模型对应的权重,并确定BERT模型对应的权重;
根据第一预测值、第二预测值,以及预设梯度提升模型对应的权重和BERT模型对应的权重,确定目标预测值;
根据目标预测值确定待处理文本与标准文本的匹配结果。
进一步地,确定模块104具体用于:
确定待处理文本的文本类型,并根据待处理文本的文本类型确定待处理文本的相关性预测阈值;
确定目标预测值是否小于相关性预测阈值;
若目标预测值小于相关性预测阈值,则确定待处理文本与标准文本的匹配结果为不匹配;
若目标预测值大于或者等于相关性预测阈值,则确定待处理文本与标准文本的匹配结果为匹配。
进一步地,基于机器学习的文本匹配装置还包括训练模块105,训练模块105具体用于通过如下方式获取语言模型:
获取第一训练数据,并获取历史用户输入的多个输入文本和多个输入文本对应的多个标准文本,第一训练数据为对训练文本对进行相关性标注后的文本数据;
对第一训练数据、多个输入文本和多个标准文本进行预处理,以获得第二训练数据和第三训练数据,第二训练数据和第三训练数据为利用不同预测模型生成相关性预测结果标签的两组训练数据;
根据第一训练数据、第二训练数据和第三训练数训练获得语言模型。
进一步地,训练模块105具体还用于:
基于第一训练数据训练获得第一预训练模型和第二预训练模型,第一预训练模型和第二预训练模型为两个参数不同的预训练语言模型;
将多个输入文本与多个标准文本进行随机配对,以获得多组模型文本对;
将多组模型文本对输入第一预训练模型,以获得第一预训练模型对模型文本对进行相关性预测的相关性预测结果;
将多组模型文本对输入第二预训练模型,以获得第二预训练模型对模型文本对进行相关性预测的相关性预测结果;
根据第一预训练模型对各组模型文本对的相关性预测结果,设置各组模型文本对的标签,获得第二训练数据;
根据第二预训练模型对各组模型文本对的相关性预测结果,设置各组模型文本对的标签,获得第三训练数据。
进一步地,训练模块105具体用于通过如下方式获取预设梯度提升模型:
将主题模型作为极端梯度提升模型的主题特征层,并将语言模型作为极端梯度提升模型的语义特征层;
将第一训练数据输入主题特征层和语义特征层,以获得主题特征层输出的隐含主题特征和语义特征层输出的隐式表征;
将隐含主题特征和隐式表征进行向量拼接后获得拼接向量,并将拼接向量输入极端梯度提升模型的全连接层进行相关性预测,以获得初始预测结果;
根据初始预测结果和第一训练数据的标签对极端梯度提升模型的参数进行迭代优化,以获得预设梯度提升模型。
进一步地,训练模块105具体还用于:
将第一训练数据中的训练文本对输入极端梯度提升模型的相似度特征层,以获得相似度特征层输出的文本相似度;
将文本相似度、隐含主题特征和隐式表征进行向量拼接,以获得拼接向量,并将拼接向量输入全连接层进行相关性预测,以获得初始预测结果。
关于基于机器学习的文本匹配装置的具体限定可以参见上文中对于基于机器学习的文本匹配方法的限定,在此不再赘述。上述基于机器学习的文本匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库为区块链数据库,该计算机设备的数据库用于存储预先生成的标准文本和预设梯度提升模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于机器学习的文本匹配方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
接收用户输入的待处理文本,并获取标准文本;
将待处理文本与标准文本组成目标文本对,并获取预设梯度提升模型,预设梯度提升模型包括输出隐含主题特征的主题特征层、输出隐式表征的语义特征层;
将目标文本对输入预设梯度提升模型,以使隐含主题特征层输出目标文本的主题特征向量、语义特征层输出目标文本的隐式表征向量,并在全连接层根据隐含主题特征向量和隐式表征向量对目标文本对进行相关性预测,以获得第一预测值;
根据第一预测值确定待处理文本与标准文本的匹配结果。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
接收用户输入的待处理文本,并获取标准文本;
将待处理文本与标准文本组成目标文本对,并获取目标预测模型,目标预测模型至少包括预设梯度提升模型,预设梯度提升模型包括输出隐含主题特征的主题特征层、输出隐式表征的语义特征层;
将目标文本对输入预设梯度提升模型,以使主题特征层输出目标文本的隐含主题特征向量、语义特征层输出目标文本的隐式表征向量,并在全连接层根据隐含主题特征向量和隐式表征向量对目标文本对进行相关性预测,以获得第一预测值;
根据第一预测值确定待处理文本与标准文本的匹配结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于机器学习的文本匹配方法,其特征在于,包括:
接收用户输入的待处理文本,并获取标准文本;
将所述待处理文本与所述标准文本组成目标文本对,并获取预设梯度提升模型,所述预设梯度提升模型包括输出隐含主题特征的主题特征层、输出隐式表征的语义特征层;
将所述目标文本对输入所述预设梯度提升模型,以使所述主题特征层输出所述目标文本对的隐含主题特征向量、所述语义特征层输出所述目标文本对的隐式表征向量,并在全连接层根据所述隐含主题特征向量和所述隐式表征向量对所述目标文本对进行相关性预测,以获得第一预测值;
根据所述第一预测值确定所述待处理文本与所述标准文本的匹配结果。
2.如权利要求1所述基于机器学习的文本匹配方法,其特征在于,所述根据所述第一预测值确定所述待处理文本与所述标准文本的匹配结果包括:
将所述目标文本输入BERT模型中,以获得所述BERT模型对所述目标文本对进行相关性预测的第二预测值;
确定所述预设梯度提升模型对应的权重,并确定所述BERT模型对应的权重;
根据所述第一预测值、所述第二预测值,以及所述预设梯度提升模型对应的权重和所述BERT模型对应的权重,确定目标预测值;
根据所述目标预测值确定所述待处理文本与所述标准文本的匹配结果。
3.如权利要求2所述基于机器学习的文本匹配方法,其特征在于,所述根据所述目标预测值确定所述待处理文本与所述标准文本的匹配结果,包括:
确定所述待处理文本的文本类型,并根据所述待处理文本的文本类型确定所述待处理文本的相关性预测阈值;
确定所述目标预测值是否小于所述相关性预测阈值;
若所述目标预测值小于所述相关性预测阈值,则确定所述待处理文本与所述标准文本的匹配结果为不匹配;
若所述目标预测值大于或者等于所述相关性预测阈值,则确定所述待处理文本与所述标准文本的匹配结果为匹配。
4.如权利要求1所述基于机器学习的文本匹配方法,其特征在于,所述语言模型通过如下方式获取:
获取第一训练数据,并获取历史用户输入的多个输入文本和所述多个输入文本对应的多个标准文本,所述第一训练数据为对训练文本对进行相关性标注后的文本数据;
对所述第一训练数据、多个输入文本和多个标准文本进行预处理,以获得第二训练数据和第三训练数据,所述第二训练数据和第三训练数据为利用不同预测模型生成相关性预测结果标签的两组训练数据;
根据所述第一训练数据、第二训练数据和第三训练数训练获得所述语言模型。
5.如权利要求4所述基于机器学习的文本匹配方法,其特征在于,所述对所述第一训练数据、多个输入文本和多个标准文本进行预处理,以获得第二训练数据和第三训练数据,包括:
基于所述第一训练数据训练获得第一预训练模型和第二预训练模型,所述第一预训练模型和第二预训练模型为两个参数不同的预训练语言模型;
将所述多个输入文本与所述多个标准文本进行随机配对,以获得多组模型文本对;
将所述多组模型文本对输入所述第一预训练模型,以获得所述第一预训练模型对所述模型文本对进行相关性预测的相关性预测结果;
将所述多组模型文本对输入所述第二预训练模型,以获得所述第二预训练模型对所述模型文本对进行相关性预测的相关性预测结果;
根据所述第一预训练模型对各组所述模型文本对的相关性预测结果,设置各组所述模型文本对的标签,获得所述第二训练数据;
根据所述第二预训练模型对各组所述模型文本对的相关性预测结果,设置各组所述模型文本对的标签,获得所述第三训练数据。
6.如权利要求1-5任一项所述基于机器学习的文本匹配方法,其特征在于,所述预设梯度提升模型通过如下方式获取:
将主题模型作为极端梯度提升模型的主题特征层,并将语言模型作为所述极端梯度提升模型的语义特征层;
将第一训练数据输入所述主题特征层和所述语义特征层,以获得所述主题特征层输出的隐含主题特征和所述语义特征层输出的隐式表征;
将所述隐含主题特征和所述隐式表征进行向量拼接后获得拼接向量,并将所述拼接向量输入所述极端梯度提升模型的全连接层进行相关性预测,以获得初始预测结果;
根据所述初始预测结果和所述第一训练数据的标签对所述极端梯度提升模型的参数进行迭代优化,以获得所述预设梯度提升模型。
7.如权利要求6所述基于机器学习的文本匹配方法,其特征在于,所述将所述隐含主题特征和所述隐式表征进行向量拼接后获得拼接向量,并将所述拼接向量输入所述极端梯度提升模型的全连接层进行相关性预测,以获得初始预测结果,包括:
将所述第一训练数据中的训练文本对输入极端梯度提升模型的相似度特征层,以获得相似度特征层输出的文本相似度;
将所述文本相似度、所述隐含主题特征和所述隐式表征进行向量拼接,以获得拼接向量,并将所述拼接向量输入所述全连接层进行相关性预测,以获得所述初始预测结果。
8.一种基于机器学习的文本匹配装置,其特征在于,包括:
第一获取模块,用于获取用户输入的待处理文本,并获取预先生成的标准文本;
第二获取模块,用于将所述待处理文本与所述标准文本组成目标文本对,并获取预设梯度提升模型,所述预设梯度提升模型包括输出隐含主题特征的主题特征层、输出隐式表征的语义特征层;
输入模块,用于将所述目标文本对输入所述预设梯度提升模型,以使所述主题特征层输出所述目标文本对的隐含主题特征向量、所述语义特征层输出所述目标文本对的隐式表征向量,并在全连接层根据所述隐含主题特征向量和所述隐式表征向量对所述目标文本对进行相关性预测,以获得第一预测值;
确定模块,用于根据所述第一预测值确定所述待处理文本与所述标准文本的匹配结果。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于机器学习的文本匹配方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于机器学习的文本匹配方法的步骤。
CN202110983613.1A 2021-08-25 2021-08-25 基于机器学习的文本匹配方法、装置、设备及存储介质 Active CN113672701B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110983613.1A CN113672701B (zh) 2021-08-25 2021-08-25 基于机器学习的文本匹配方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110983613.1A CN113672701B (zh) 2021-08-25 2021-08-25 基于机器学习的文本匹配方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113672701A true CN113672701A (zh) 2021-11-19
CN113672701B CN113672701B (zh) 2023-09-15

Family

ID=78546315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110983613.1A Active CN113672701B (zh) 2021-08-25 2021-08-25 基于机器学习的文本匹配方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113672701B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114358210A (zh) * 2022-01-14 2022-04-15 平安科技(深圳)有限公司 文本相似度计算方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859960A (zh) * 2020-07-27 2020-10-30 中国平安人寿保险股份有限公司 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN112231485A (zh) * 2020-12-14 2021-01-15 平安科技(深圳)有限公司 文本推荐方法、装置、计算机设备及存储介质
CN112241631A (zh) * 2020-10-23 2021-01-19 平安科技(深圳)有限公司 文本语义识别方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859960A (zh) * 2020-07-27 2020-10-30 中国平安人寿保险股份有限公司 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN112241631A (zh) * 2020-10-23 2021-01-19 平安科技(深圳)有限公司 文本语义识别方法、装置、电子设备及存储介质
CN112231485A (zh) * 2020-12-14 2021-01-15 平安科技(深圳)有限公司 文本推荐方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NICOLE PEINELT等: "tBERT:Topic Models and BERT Joining Forces for Semantic Similarity Detection", 《PROCEEDINGS OF THE 58TH ANNUAL MEETING OF THEASSOCIATION FOR COMPUTATIONAL LINGUISTICS》, pages 7047 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114358210A (zh) * 2022-01-14 2022-04-15 平安科技(深圳)有限公司 文本相似度计算方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN113672701B (zh) 2023-09-15

Similar Documents

Publication Publication Date Title
CN106649694B (zh) 语音交互中确定用户意图的方法及装置
CN109446302A (zh) 基于机器学习的问答数据处理方法、装置和计算机设备
CN111859960A (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN112084789B (zh) 文本处理方法、装置、设备及存储介质
US20210217504A1 (en) Method and apparatus for verifying medical fact
CN113157863B (zh) 问答数据处理方法、装置、计算机设备及存储介质
CN110909145B (zh) 针对多任务模型的训练方法及装置
EP3979098A1 (en) Data processing method and apparatus, storage medium, and electronic apparatus
CN111311107A (zh) 基于用户关系的风险评估方法、装置和计算机设备
CN109857865B (zh) 一种文本分类方法及系统
CN112287068B (zh) 基于人工智能的问诊对话数据处理方法及装置
CN111901554B (zh) 基于语义聚类的通话通道构建方法、装置和计算机设备
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN112016311A (zh) 基于深度学习模型的实体识别方法、装置、设备及介质
CN113836303A (zh) 一种文本类别识别方法、装置、计算机设备及介质
CN116484867A (zh) 命名实体识别方法及装置、存储介质、计算机设备
CN111524043A (zh) 诉讼风险评估问卷自动生成的方法和装置
CN113672701B (zh) 基于机器学习的文本匹配方法、装置、设备及存储介质
CN113420203B (zh) 对象推荐方法、装置、电子设备及存储介质
CN110502620B (zh) 导诊相似问题对生成方法、系统及计算机设备
CN116992879A (zh) 基于人工智能的实体识别方法、装置、设备及介质
CN111931503A (zh) 信息抽取方法及装置、设备、计算机可读存储介质
CN112307752A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN116186223A (zh) 一种金融文本处理方法、装置、设备和存储介质
CN113935554B (zh) 投放系统中的模型训练方法、资源投放方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant