CN114595683A - 评价对象抽取方法、装置、设备、存储介质象及程序产品 - Google Patents

评价对象抽取方法、装置、设备、存储介质象及程序产品 Download PDF

Info

Publication number
CN114595683A
CN114595683A CN202011421420.9A CN202011421420A CN114595683A CN 114595683 A CN114595683 A CN 114595683A CN 202011421420 A CN202011421420 A CN 202011421420A CN 114595683 A CN114595683 A CN 114595683A
Authority
CN
China
Prior art keywords
preset
model
word
dependency
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011421420.9A
Other languages
English (en)
Inventor
周楠楠
于夕畔
汤耀华
杨海军
徐倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202011421420.9A priority Critical patent/CN114595683A/zh
Publication of CN114595683A publication Critical patent/CN114595683A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种评价对象抽取方法、装置、设备、存储介质象及程序产品,该方法包括:获取待处理评价数据;确定待处理评价数据中词与词之间的依存关系信息,词的词信息以及词性信息,并输入到预设抽取模型中;其中,所述预设抽取模型由基于标注有第一预设标签的第一训练数据,对第一预设待训练模型进行第一迭代训练得到,第一训练数据包括训练语句和所述训练语句对应的预设拼接依存向量;基于预设抽取模型对依存关系信息,词的词性信息以及词的词信息进行对象抽取处理,得到目标评价对象。在本申请中,从各个维度考虑隐含的精度分析,因而,提升评价对象的抽取精度。解决现有通过序列标注方式进行评价对象的抽取,抽取精度低的技术问题。

Description

评价对象抽取方法、装置、设备、存储介质象及程序产品
技术领域
本申请涉及人工智能领域,尤其涉及一种评价对象抽取方法、装置、设备、存储介质象及程序产品。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如金融业对评价对象抽取也有更高的要求。
随着计算机软件和人工智能的不断发展,人工智能在互联网行业的应用也越来越广泛,在互联网行业中,每个公司都有许许多多的产品,并且这些产品或多或少都有来自用户的评价或者评论,评论中包含用户的喜好、产品缺陷等非常有价值的评价对象信息。抽取评论中评价对象,一方面可以让公司知道用户更在乎产品的哪些方面,另一方面评价对象的抽取也是细粒度情感分析的一部分,准确的抽取出评价对象可以有效的提升细粒度情感分析的精度,以更好的优化产品,但是目前对评价对象进行序列标注时,未考虑不同词语之间的依存关系,致使对评价对象的抽取存在抽取精度难以满足要求的技术问题。
发明内容
本申请的主要目的在于提供一种评价对象抽取方法、装置、设备、存储介质象及程序产品,旨在解决现有技术中评价对象的抽取精度低的技术问题。
为实现上述目的,本申请提供一种评价对象抽取方法,应用于第一设备,所述评价对象抽取方法包括:
获取待处理评价数据;
确定所述待处理评价数据中词与词之间的依存关系信息,词的词信息以及词性信息;
将所述依存关系信息,词的词性信息以及词的词信息输入到预设抽取模型中;
其中,所述预设抽取模型由基于标注有第一预设标签的第一训练数据,对第一预设待训练模型进行第一迭代训练得到,所述第一训练数据包括训练语句和所述训练语句对应的预设拼接依存向量;
基于所述预设抽取模型对所述依存关系信息,词的词性信息以及词的词信息进行对象抽取处理,得到目标评价对象。
可选地,所述基于所述预设抽取模型对所述依存关系信息,词的词性信息以及词的词信息进行对象抽取处理,得到目标评价对象的步骤之前,所述方法包括:
获取训练语句,以得到标注有第一预设标签的第一训练数据;
基于所述标注有第一预设标签的第一训练数据,对第一预设待训练模型进行第一迭代训练,得到第一目标模型;
将所述第一目标模型设置为所述预设抽取模型。
可选地,所述基于所述标注有第一预设标签的第一训练数据,对第一预设待训练模型进行第一迭代训练,得到第一目标模型的步骤,包括:
获取第一预设待训练模型;
将所述第一训练数据输入至所述第一预设待训练模型中,以对所述第一训练数据进行对象标签分析,获得第一预测标签;
基于所述第一预测标签和所述第一预设标签,计算第一模型误差;
基于所述第一模型误差,对所述第一预设待训练模型进行更新,直至所述第一预设待训练模型满足第一预设更新结束条件,以得到第一目标模型。
可选地,所述获取训练语句,以得到标注有第一预设标签的第一训练数据的步骤,包括:
获取训练语句,将所述训练语句输入至预设依存句法模型中;
基于所述预设依存句法模型对所述训练语句进行词与词之间的依存句法分析,得到目标依存句法分析结果;
基于所述目标依存句法分析结果,确定所述训练语句的预设拼接依存向量;
基于所述预设拼接依存向量以及所述标注有第一预设标签的训练语句,确定第一训练数据。
可选地,所述基于所述预设依存句法模型对所述训练语句进行词与词之间的依存句法分析,得到目标依存句法分析结果的步骤之前,所述方法包括:
获取标注有第二预设标签的第二训练数据和第二预设待训练模型,其中,所述第二预设标签为依存关系标签;
基于所述标注有第二预设标签的第二训练数据,对第二预设待训练模型进行第二迭代训练,得到第二目标模型;
将所述第二目标模型设置为所述预设依存句法模型。
可选地,所述基于所述标注有第二预设标签的第二训练数据,对第二预设待训练模型进行第二迭代训练,得到第二目标模型的步骤,包括:
将所述第二训练数据输入至所述第二预设待训练模型,以对所述第二训练数据进行词与词之间的依存关系标签分析,获得第二预测标签;
基于所述第二预测标签和所述第二预设标签,计算第二模型误差;
基于所述第二模型误差,对所述第二预设待训练模型进行更新,直至所述第二预设待训练模型满足第二预设更新结束条件,以得到第二目标模型。
可选地,所述确定所述待处理评价数据中词与词之间的依存关系信息的步骤,包括:
将所述待处理评价数据输入至预设依存句法模型中;
基于所述预设依存句法模型对所述待处理评价数据进行依存句法分析,以得到所述待处理评价数据中词与词之间的依存关系信息。
可选地,所述预设依存句法模型包括依存关系判别模型和依存关系类型预测模型,
所述基于所述预设依存句法模型对所述待处理评价数据进行依存句法分析,以得到所述待处理评价数据中词与词之间的依存关系信息的步骤,包括:
对所述待处理评价数据进行向量化,获得向量化语句;
基于所述依存关系判别模型,对所述向量化语句进行依存关系判别,获得依存关系判别结果;
基于所述依存关系类型预测模型和所述依存关系判别结果,对所述向量化语句进行依存关系类型预测,得到所述待处理评价数据中词与词之间的依存关系信息。
可选地,所述依存关系判别模型包括第一特征提取模型、第一全连接网络、第二全连接网络和双仿射变换网络,
所述基于所述依存关系判别模型,对所述向量化语句进行依存关系判别,获得依存关系判别结果的步骤,包括:
基于所述第一特征提取模型,对所述向量化语句进行特征提取,获得第一特征提取结果;
基于所述第一全连接网络和所述第二全连接网络,分别对所述第一特征提取结果进行全连接,获得第一句子向量和第二句子向量;
基于所述双仿射变换网络,对所述第一句子向量和所述第二句子向量进行双仿射变换,获得依存关系得分矩阵;
基于所述依存关系得分矩阵,得到依存关系判别结果。
可选地,所述向量化语句包括向量化词,
所述对所述待处理评价数据进行向量化,获得向量化语句的步骤,包括:
获取所述待处理评价数据对应的待处理词向量、对应的待处理词性向量和对应的待处理词位置向量;
基于所述待处理词向量、所述待处理词性向量和所述待处理词位置向量,生成所述向量化词。
本申请还提供一种评价对象抽取装置,所述评价对象抽取装置包括:
第一获取模块,用于获取待处理评价数据;
确定模块,用于确定所述待处理评价数据中词与词之间的依存关系信息,词的词信息以及词性信息;
输入模块,用于将所述依存关系信息,词的词性信息以及词的词信息输入到预设抽取模型中;
其中,所述预设抽取模型由基于标注有第一预设标签的第一训练数据,对第一预设待训练模型进行第一迭代训练得到,所述第一训练数据包括训练语句和所述训练语句对应的预设拼接依存向量;
对象抽取模块,用于基于所述预设抽取模型对所述依存关系信息,词的词性信息以及词的词信息进行对象抽取处理,得到目标评价对象。
本申请还提供一种评价对象抽取设备,所述评价对象抽取设备为实体设备,所述评价对象抽取设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述评价对象抽取方法的程序,所述评价对象抽取方法的程序被处理器执行时可实现如上述的评价对象抽取方法的步骤。
本申请还提供一种可读存储介质,所述可读存储介质上存储有实现评价对象抽取方法的程序,所述评价对象抽取方法的程序被处理器执行时实现如上述的评价对象抽取方法的步骤。
本申请还提供一种计算机程序产品、包括计算机程序,该计算机程序被处理器执行时实现上述的评价对象抽取方法的步骤。
本申请提供一种评价对象抽取方法、装置、设备、存储介质象及程序产品,与现有技术中未考虑不同词之间的依存关系,直接对评价对象进行序列标注,致使评价对象的抽取精度低相比,本申请通过获取待处理评价数据;确定所述待处理评价数据中词与词之间的依存关系信息,词的词信息以及词性信息;将所述依存关系信息,词的词性信息以及词的词信息输入到预设抽取模型中;其中,所述预设抽取模型由基于标注有第一预设标签的第一训练数据,对第一预设待训练模型进行第一迭代训练得到,所述第一训练数据包括训练语句和所述训练语句对应的预设拼接依存向量;基于所述预设抽取模型对所述依存关系信息,词的词性信息以及词的词信息进行对象抽取处理,得到目标评价对象。在本申请中,在获取待处理评价数据后,考虑待处理评价数据的句法信息即待处理评价数据中词与词之间的依存关系、词的词信息以及词性信息,基于所述依存关系信息,词的词信息以及词性信息等确定目标评价对象,由于考虑了词与词之间的依存关系,而不是纯粹的序列标注,得到目标评价对象,也即,在本申请中,考虑隐含的精度分析,因而,提升评价对象的抽取精度。解决现有技术中通过序列标注方式进行评价对象的抽取,抽取精度低的技术问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请评价对象抽取方法第一实施例的流程示意图;
图2为本申请评价对象抽取方法第一实施例中步骤S10之前的细化流程示意图;
图3为本申请实施例方案涉及的硬件运行环境的设备结构示意图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种评价对象抽取方法,在本申请评价对象抽取方法的第一实施例中,参照图1,所述评价对象抽取方法包括:
步骤S10,获取待处理评价数据;
步骤S20,确定所述待处理评价数据中词与词之间的依存关系信息,词的词信息以及词性信息;
步骤S30将所述依存关系信息,词的词性信息以及词的词信息输入到预设抽取模型中;
其中,所述预设抽取模型由基于标注有第一预设标签的第一训练数据,对第一预设待训练模型进行第一迭代训练得到,所述第一训练数据包括训练语句和所述训练语句对应的预设拼接依存向量;
步骤S40,基于所述预设抽取模型对所述依存关系信息,词的词性信息以及词的词信息进行对象抽取处理,得到目标评价对象。
具体步骤如下:
步骤S10,获取待处理评价数据;
在本实施例中,需要说明的是,所述评价对象抽取方法应用于评价对象抽取装置,所述评价对象抽取装置从属于评价对象抽取设备,目前,随着计算机软件和人工智能的不断发展,人工智能在互联网行业的应用也越来越广泛,在互联网行业中,每个公司都有许许多多的产品,并且这些产品或多或少都有来自用户的评价或者评论即待处理评价数据,待处理评价数据中包含用户的喜好、产品缺陷等非常有价值的评价对象信息。抽取评论中评价对象,一方面可以让公司知道用户更在乎产品的哪些方面,另一方面评价对象的抽取也是细粒度情感分析的一部分,准确的抽取出评价对象可以有效的提升细粒度情感分析的精度,以更好的优化产品,具体地,例如,待处理评价数据为:A餐厅的饭菜很难吃,其中,A餐厅即为待评价对象,若待处理评价数据为:A餐厅的味道不错,但是服务很差,其中,A餐厅的味道和服务即为待评价对象,或者若待处理评价数据为:A餐厅的味道不错,卫生很好,但是服务很差,其中,A餐厅的味道,卫生和服务即为待评价对象,很显然,味道,卫生和服务作为待评价对象,只比味道作为评级对象,粒度更精细,或者在贷款领域,微粒贷不仅操作简单,而且到账快,则评价对象为微粒贷,也即,待处理评价数据中的评价对象是细粒度情感分析的一部分,能够得出用户的关注点,准确获取评价对象,可以提升用户体验,但是目前一般将评价对象的抽取作为一个序列标注任务来做,序列标注模型没有考虑待处理评价数据中的句法信息即评论中词与词之间的依存关系,以及词性信息等,使得评价对象抽取的精度难以满足要求。
采集待处理评价数据,其中,待处理评价数据为产品中评价数据构成的,例如,微粒贷产品中的多条评价数据(每条都是由语句构成的),或者小额贷产品中多条评价数据。
步骤S20,确定所述待处理评价数据中词与词之间的依存关系信息,词的词信息以及词性信息;
在本实施例中,为了准确获取评价对象,在获取待处理评价数据后,确定所述待处理评价数据中词与词之间的依存关系信息,具体地,确定所述待处理评价数据中词与词之间的依存关系信息,所述待处理评价数据中词的词性信息以及词的词信息,以得到目标评价对象,其中,依存关系信息包括语句的句法信息,语句的句法信息包括句式信息以及词成分信息,假设语句为“我是谁”,则句式信息表明该语句为主动宾句,词成分信息表明“我”为主语,“是”为谓语,“谁”为宾语。
确定所述待处理评价数据中词与词之间的依存关系信息,词的词信息以及词性信息;具体地,通过预设依存句法模型,确定所述待处理评价数据中词与词之间的依存关系信息,并通过one-hot的编码方式,得到所述待处理评价数据中词的词信息以及词性信息,其中,依存关系信息可以通过依存关系向量表示,词性信息通过词性向量表示,词信息通过词向量表示。在本实施例中,还可以通过其他方式确定所述待处理评价数据中词与词之间的依存关系信息,在此不做具体限定。
其中,所述确定所述待处理评价数据中词与词之间的依存关系信息的步骤,包括以下步骤步骤S21-步骤S22:
步骤S21,将所述待处理评价数据输入至预设依存句法模型中;
步骤S22,基于所述预设依存句法模型,对所述待处理评价数据进行依存句法分析,以得到待处理评价数据中词与词之间的依存关系信息。
在本实施例中,基于已经训练好的预设依存句法模型对待处理评价数据进行依存句法分析,得到待处理评价数据中词与词之间的依存关系信息。
在本实施例中,为了准确得到词与词之间的依存关系信息,预先训练有预设依存句法模型,具体地,预设依存句法模型的训练方式可以为:获取依存句法训练数据(第二训练数据)和待训练依存句法模型(第二预设待训练模型),其中,所述依存句法训练数据包括依存句法训练语句和所述依存句法训练语句对应的预设依存类型标签;将所述依存句法训练数据输入所述待训练依存句法模型,以对所述依存句法训练语句进行依存句法分析,获得类型依存句法预测标签;基于所述类型依存句法预测标签和所述预设依存类型标签,计算相应模型误差(第二模型误差);基于所述相应模型误差,对所述待训练依存句法模型进行更新,直至得到预设依存句法模型。在得到预设依存句法模型后,将所述待处理评价数据输入至预设依存句法模型中,基于所述预设依存句法模型,对所述待处理评价数据进行依存句法分析,得到待处理评价数据中词与词之间的依存关系信息。
在得到依存关系信息后,具体可以得到句式信息和词成分信息,具体地:例如,假设语句“ABC”,其中A、B和C均为语句中的词,则得到依存关系信息后,即进行依存关系判别后,可判定B依存于A,C依存于B,进行依存关系类型预测后,可确定A与B之间的依存关系为主谓关系,B与C之间的依存关系为动宾关系,在得到依存关系信息为存在依存关系后,还可以进一步确定语句的句式信息和词成分信息,具体地,在得到依存关系信息为存在依存关系后,获得语句对应的依存关系判别向量和依存关系类型预测概率矩阵,进而将所述依存关系向量与所述依存关系类型预测概率矩阵进行融合,获得所述语句中词与词之间的依存关系类型标签,其中,所述依存关系类型标签为依存关系类型的标识,进而基于所述依存关系类型标签,即可确定所述语句的句式信息和词成分信息,其中,所述依存关系类型预测概率矩阵中的每一比特位上的值均为所述语句中一词与另外一词之间的依存关系类型标签概率预测向量,其中,所述依存关系类型预测向量中的每一比特位上的值均为所述语句中一词与另外一词的依存关系属于该比特位对应的预设依存关系的概率值,其中,所述预设依存关系包括主谓关系、动宾关系等,例如,假设词A与词B之间的所述依存关系类型标签概率预测向量为(0.1,0.9),则0.1表示词A与词B之间为主谓关系的概率为10%,0.9表示词A与词B之间的动宾关系的概率为90%。
所述预设依存句法模型包括依存关系判别模型和依存关系类型预测模型,
所述基于所述预设依存句法模型对所述待处理评价数据进行依存句法分析,以得到所述待处理评价数据中词与词之间的依存关系信息的步骤,包括:
步骤M1,对所述待处理评价数据进行向量化,获得向量化语句;
步骤M2,基于所述依存关系判别模型,对所述向量化语句进行依存关系判别,获得依存关系判别结果;
步骤M3,基于所述依存关系类型预测模型和所述依存关系判别结果,对所述向量化语句进行依存关系类型预测,得到所述待处理评价数据中词与词之间的依存关系信息。
其中,预设依存句法模型对待处理评价数据进行依存句法分析的过程包括:对所述待处理评价数据进行向量化,获得向量化语句;基于预设依存句法模型中的依存关系判别模型,对所述向量化语句进行依存关系判别,获得依存关系判别结果;基于预设依存句法模型中的依存关系类型预测模型和所述依存关系判别结果,对所述向量化语句进行依存关系类型预测,获得所述依存句法分析结果。所述依存关系判别结果包括依存关系向量,具体地,基于所述依存关系类型预测模型和所述依存关系判别结果,对所述向量化语句进行依存关系类型预测,获得所述依存句法分析结果的方式可以为:基于所述依存关系类型预测模型,对所述向量化语句进行依存关系类型预测,获得依存关系类型概率得分矩阵;将所述依存关系类型概率得分矩阵和所述依存关系向量进行融合,获得所述依存句法分析结果(依存关系信息)。
步骤S30,将所述依存关系信息,词的词性信息以及词的词信息输入到预设抽取模型中;
其中,所述预设抽取模型由基于标注有第一预设标签的第一训练数据,对第一预设待训练模型进行第一迭代训练得到,所述第一训练数据包括训练语句和所述训练语句对应的预设拼接依存向量;
其中,参照图2,所述基于所述预设抽取模型对所述依存关系信息,词的词性信息以及词的词信息进行对象抽取处理,得到目标评价对象的步骤之前,所述方法包括以下步骤S01-S03:
步骤S01,获取训练语句,以得到标注有第一预设标签的第一训练数据;
在本实施例中,首先获取训练语句,以得到标注有第一预设标签的第一训练数据,第一预设标签可以是对语句采用BIO的方式进行词标注后得到的标签,即,假如评价对象由多个词构成,如语句“微粒贷不但操作简单,而且到账快”中的评价对象为“微粒贷”,若分词工具将“微粒贷”分为“微粒”以及“贷”,则第一个词“微粒”标注为B-A,第二个词“贷”标注为I-A,句子中其它非构成评价对象的词标注为O,例如词语“操作”和“简单”的标签为“O”,若分词工具将“微粒贷”分为“微粒贷”,则第一个词“微粒贷”标注为B-A,其他词的标签为“O”。
步骤S02,基于所述标注有第一预设标签的第一训练数据,对第一预设待训练模型进行第一迭代训练,得到第一目标模型;
步骤S03,将所述第一目标模型设置为所述预设抽取模型。
基于所述标注有第一预设标签的第一训练数据,对第一预设待训练模型进行第一迭代训练,以得到预设抽取模型。
具体地,所述基于所述标注有第一预设标签的第一训练数据,对第一预设待训练模型进行第一迭代训练,得到第一目标模型的步骤,包括以下步骤A1-步骤A4:
步骤A1,获取第一预设待训练模型;
在本实施例中,需要说明的是,所述第一预设标签为预先标注好的第一训练数据中中评价对象标识,所述第一预设待训练模型为未训练好的抽取模型。获取第一预设待训练模型,其中,所述第一训练数据包括训练语句和所述训练语句对应的第一预设待训练模型,
具体地,获取第一训练数据和第一预设待训练模型,并对第一训练数据进行人工标注,获得人工标注第一训练数据,在本实施例中,在得到人工标注第一训练数据后,可以对第一训练数据进行扩充。
步骤A2,将所述第一训练数据输入至所述第一预设待训练模型中,以对所述第一训练数据进行对象标签分析,获得第一预测标签;
将所述第一训练数据输入至所述第一预设待训练模型中,以对所述第一训练数据进行对象标签分析,获得第一预测标签。
步骤A3,基于所述第一预测标签和所述第一预设标签,计算第一模型误差;
在本实施例中,基于所述第一预测标签和所述第一预设标签,计算第一模型误差,具体地,计算所述第一预设标签和所述第一预测标签之间的距离,获得第一模型误差。
步骤A4,基于所述第一模型误差,对所述第一预设待训练模型进行更新,直至所述第一预设待训练模型满足第一预设更新结束条件,以得到第一目标模型。
在本实施例中,基于所述第一模型误差即评价对象抽取误差,对所述第一预设待训练模型进行更新,直至所述第一预设待训练模型满足第一预设更新结束条件,以得到第一目标模型,具体地,基于所述第一模型误差,计算第一梯度信息,并通过反向传播的方式,根据所述第一梯度信息,更新所述第一预设待训练模型的模型参数,获得更新后的第一预设待训练模型,进而判断更新后的第一预设待训练模型是否满足第一预设更新结束条件,若满足,继续训练,直到满足,其中,所述第一预设更新结束条件包括达到最大迭代次数和损失函数收敛等。
步骤S40,基于所述预设抽取模型对所述依存关系信息,词的词性信息以及词的词信息进行对象抽取处理,得到目标评价对象。
基于已经训练好的所述预设抽取模型对所述依存关系信息,词的词性信息以及词的词信息进行对象抽取处理,得到目标评价对象。或者更具体地,基于待处理评价数据中词与词之间的依存关系信息,得到句式信息和词成分信息,基于句式信息和词成分信息,词的词性信息以及词的词信息确定目标评价对象。
在得到依存关系信息,词的词性信息以及词的词信息后,将所述依存关系信息,词的词性信息以及词的词信息输入到预设抽取模型中,由于预设抽取模型由基于标注有第一预设标签的第一训练数据,对第一预设待训练模型进行第一迭代训练得到,因而,基于所述预设抽取模型对所述依存关系信息,词的词性信息以及词的词信息进行对象抽取处理后,准确得到目标评价对象。具体地,所述依存关系信息,词的词性信息以及词的词信息,获取预设拼接依存向量,基于预设拼接依存向量,得到目标评价对象,其中,预设拼接依存向量指的是将待处理评价数据中每个词以及词性向量化后,将该词的词性向量(词性向量为表示词的词性的编码向量),词向量(词的编码向量,用于唯一表示该词),与该词有依存关系的词的词向量、依存关系向量(通过依存关系信息得到)进行拼接后得到的。
本申请提供一种评价对象抽取方法、装置、设备、存储介质象及程序产品,与现有技术中未考虑不同词之间的依存关系,直接对评价对象进行序列标注,致使评价对象的抽取精度低相比,本申请通过获取待处理评价数据;确定所述待处理评价数据中词与词之间的依存关系信息,词的词信息以及词性信息;将所述依存关系信息,词的词性信息以及词的词信息输入到预设抽取模型中;其中,所述预设抽取模型由基于标注有第一预设标签的第一训练数据,对第一预设待训练模型进行第一迭代训练得到,所述第一训练数据包括训练语句和所述训练语句对应的预设拼接依存向量;基于所述预设抽取模型对所述依存关系信息,词的词性信息以及词的词信息进行对象抽取处理,得到目标评价对象。在本申请中,在获取待处理评价数据后,考虑待处理评价数据的句法信息即待处理评价数据中词与词之间的依存关系、词的词信息以及词性信息,基于所述依存关系信息,词的词信息以及词性信息等确定目标评价对象,由于考虑了词与词之间的依存关系,而不是纯粹的序列标注,得到目标评价对象,也即,在本申请中,考虑隐含的精度分析,因而,提升评价对象的抽取精度。解决现有技术中通过序列标注方式进行评价对象的抽取,抽取精度低的技术问题。
进一步地,基于本申请中第一实施例,在本申请的另一实施例中,所述获取训练语句,以得到标注有第一预设标签的第一训练数据的步骤,包括:
步骤B1,获取训练语句,将所述训练语句输入至预设依存句法模型中;
步骤B2,基于所述预设依存句法模型对所述训练语句进行词与词之间的依存句法分析,得到目标依存句法分析结果;
步骤B3,基于所述目标依存句法分析结果,确定所述训练语句的预设拼接依存向量;
步骤B4,基于所述预设拼接依存向量以及所述标注有第一预设标签的训练语句,确定第一训练数据。
由于预设抽取模型是基于第一训练数据训练得到的,而第一训练数据的得到需要有确定训练语句的预设拼接依存向量,因而,需要先确定训练语句的预设拼接依存向量,在本实施例中,训练语句的预设拼接依存向量是基于预设依存句法模型对所述训练语句进行词与词之间的依存句法分析,得到目标依存句法分析结果后,基于所述目标依存句法分析结果,确定所述训练语句的预设拼接依存向量得到的,进而基于所述预设拼接依存向量以及所述标注有第一预设标签的训练语句,确定第一训练数据。
获取语句,并基于预设依存句法模型,对所述语句进行依存句法分析,获得所述语句对应的依存句法分析结果,具体地,获取语句,并将所述语句输入所述预设依存句法模型,对所述语句进行向量化,获得向量化语句,进而分别对所述向量化语句进行依存关系判别和依存关系类型预测,其中,需要说明的是,进行依存关系判别的目的为判别词与词之间的依存关系,进而依存关系类型预测的目的是预测预存关系的类型。
所述基于所述预设依存句法模型对所述训练语句进行词与词之间的依存句法分析,得到目标依存句法分析结果的步骤之前,所述方法包括以下步骤C1-C3:
步骤C1,获取标注有第二预设标签的第二训练数据和第二预设待训练模型,其中,所述第二预设标签为依存关系标签;
在本实施例中,是训练预设依存句法模型的具体过程,首先,获取获取标注有第二预设标签的第二训练数据和第二预设待训练模型,其中,所述第二预设标签为依存关系标签。
步骤C2,基于所述标注有第二预设标签的第二训练数据,对第二预设待训练模型进行第二迭代训练,得到第二目标模型;
步骤C3,将所述第二目标模型设置为所述预设依存句法模型。
基于所述标注有第二预设标签的第二训练数据,对第二预设待训练模型进行第二迭代训练,得到第二目标模型,即得到预设依存句法模型。
所述基于所述标注有第二预设标签的第二训练数据,对第二预设待训练模型进行第二迭代训练,得到第二目标模型的步骤,包括以下步骤D1-D3:
步骤D1,将所述第二训练数据输入至所述第二预设待训练模型,以对所述第二训练数据进行词与词之间的依存关系标签分析,获得第二预测标签;
步骤D2,基于所述第二预测标签和所述第二预设标签,计算第二模型误差;
步骤D3,基于所述第二模型误差,对所述第二预设待训练模型进行更新,直至所述第二预设待训练模型满足第二预设更新结束条件,以得到第二目标模型。
在本实施例中,需要说明的是,所述第二预设标签为预先标注好的第二训练数据中中依存关系标识,所述第二预设待训练模型为未训练好的依存句法。获取标注有第二预设标签的第二训练数据和第二预设待训练模型,将所述第二训练数据输入至所述第二预设待训练模型中,以对所述第二训练数据进行依存关系标签分析,获得第二预测标签,具体地,基于所述第二预设待训练模型中的向量化网络,对所述第二训练数据进行向量化,获得向量化训练语句,进而基于所述第二预设待训练模型中的依存关系判别模型(已经训练好的),对所述向量化训练语句(训练语句)进行依存关系判别,获得训练依存关系向量,并基于所述第二预设待训练模型中的依存关系类型预测模型(已经训练好的),对所述向量化训练语句进行依存关系类型预测,获得训练依存关系类型概率得分矩阵,进而将所述训练依存关系向量和所述训练依存关系类型概率得分矩阵,确定第二预测标签。
在本实施例中,基于所述第二预测标签和所述第二预设标签,计算第二模型误差,具体地,计算所述第二预设标签和所述第二预测标签之间的距离,获得第二模型误差。在本实施例中,基于所述第二模型误差即评价对象抽取误差,对所述第二预设待训练模型进行更新,直至所述第二预设待训练模型满足第二预设更新结束条件,以得到第二目标模型,具体地,基于所述第二模型误差,计算第二梯度信息,并通过反向传播的方式,根据所述第二梯度信息,更新所述第二预设待训练模型的模型参数,获得更新后的第二预设待训练模型,进而判断更新后的第二预设待训练模型是否满足第二预设更新结束条件,若满足,继续训练,直到满足,其中,所述第二预设更新结束条件包括达到最大迭代次数和损失函数收敛等。
在本实施例中,通过获取训练语句,将所述训练语句输入至预设依存句法模型中;基于所述预设依存句法模型对所述训练语句进行词与词之间的依存句法分析,得到目标依存句法分析结果;基于所述目标依存句法分析结果,确定所述训练语句的预设拼接依存向量;基于所述预设拼接依存向量以及所述标注有第一预设标签的训练语句,确定第一训练数据。在本实施例中,准确得到第一训练数据,为准确训练抽取模型奠定基础。
进一步地,基于本申请中第一实施例,在本申请的另一实施例中,所述预设依存句法模型包括依存关系判别模型和依存关系类型预测模型,
所述基于所述预设依存句法模型对所述待处理评价数据进行依存句法分析,以得到所述待处理评价数据中词与词之间的依存关系信息的步骤,包括以下步骤E1-步骤E3:
步骤E1,对所述待处理评价数据进行向量化,获得向量化语句;
在本实施例中,对所述待处理评价数据进行向量化,获得向量化语句。
其中,所述向量化语句包括向量化词,
所述对所述待处理评价数据进行向量化,获得向量化语句的步骤,包括步骤G1-步骤G2:
步骤G1,获取所述待处理评价数据对应的待处理词向量、对应的待处理词性向量和对应的待处理词位置向量;
具体地,生成所述待处理评价数据中每一词对应的待处理词向量、待处理词性向量和待处理词位置向量,其中,所述待处理词向量为表示词的编码向量,用于唯一表示所述词,所述待处理词性向量为表示所述词的词性的编码向量,所述待处理词位置向量为表示所述词在所述训练语句中的位置的编码向量,进而基于每一所述词对应的待处理词向量、对应的待处理词性向量和对应的待处理词位置向量,生成每一词对应的向量化词,进而将各所述向量化词构成的矩阵作为所述向量化语句。
步骤G2,基于所述待处理词向量、所述待处理词性向量和所述待处理词位置向量,生成所述向量化词。
在本实施例中,基于所述待处理词向量(词向量)、所述待处理词性向量(词性向量)和所述待处理词位置向量(词位置向量),生成所述向量化词,具体地,将所述待处理词、所述待处理词性向量和所述待处理词位置向量输入预设向量化词计算公式,获得所述向量化词,其中,所述预设向量化词计算公式如下所示:
Figure BDA0002821793850000161
其中,Xi为所述向量化词,Ew为所述词向量(可以由word2vec、Glove、ELMO、bert等模型得到),Et为所述词性向量,Ep为所述词位置向量,
Figure BDA0002821793850000162
为向量之间的concate操作。
步骤E2,基于所述依存关系判别模型,对所述向量化语句进行依存关系判别,获得依存关系判别结果;
基于所述依存关系判别模型,对所述向量化语句进行依存关系判别,获得依存关系判别结果,其中,所述依存关系判别模型包括第一特征提取模型、第一全连接网络、第二全连接网络和双仿射变换网络,
所述基于所述依存关系判别模型,对所述向量化语句进行依存关系判别,获得依存关系判别结果的步骤,包括以下步骤H1-步骤H4:
步骤H1,基于所述第一特征提取模型,对所述向量化语句进行特征提取,获得第一特征提取结果;
在本实施例中,需要说明的是,所述第一特征提取模型为对所述向量化语句进行特征提取的神经网络,所述第一特征提取模型包括Transformer模型等。
基于所述第一特征提取模型,对所述向量化语句进行特征提取,获得第一特征提取结果,具体地,将所述向量化语句输入所述第一特征提取模型,对所述向量化语句进行特征提取,获得第一特征提取矩阵,并将所述第一特征提取矩阵作为所述第一特征提取结果。
步骤H2,基于所述第一全连接网络和所述第二全连接网络,分别对所述第一特征提取结果进行全连接,获得第一句子向量和第二句子向量;
在本实施例中,基于所述第一全连接网络和所述第二全连接网络,分别对所述第一特征提取结果进行全连接,获得第一句子向量和第二句子向量,具体地,将所述第一特征提取矩阵输入第一全连接网络,对所述第一特征提取矩阵进行全连接,获得第一句子向量,并将所述第一特征提取矩阵输入第二全连接网络,对所述第一特征提取矩阵进行全连接,获得第二句子向量,其中,需要说明的是,所述第一句子向量至少包括一词头向量,用于表示依存关系中作为被依存的词的表示向量,所述第二句子向量至少包括一词尾向量,用于表示依存关系中作为依存的词的表示向量,例如,假设词B依存于词A,则词A对应的词表示向量为词头向量,词B对应的词表示向量为词尾向量。
步骤H3,基于所述双仿射变换网络,对所述第一句子向量和所述第二句子向量进行双仿射变换,获得依存关系得分矩阵;
在本实施例中,基于所述第一双仿射变换网络,对所述第一句子向量和所述第二句子向量进行双仿射变换,获得依存关系得分矩阵,具体地,将所述第一句子向量和所述第二句子向量输入所述第一双仿射变换网络,对所述第一句子向量和所述第二句子向量进行双仿射变换,以计算第一句子向量中每一词头向量和第二句子向量中每一词尾向量存在依存关系的概率得分,获得所述依存关系得分矩阵,其中,所述依存关系得分矩阵为由每一词头向量和每一词尾向量之间存在依存关系的概率得分组成的得分矩阵。
步骤H4,基于所述依存关系得分矩阵,得到目标依存句法分析结果。
在本实施例中,基于所述依存关系得分矩阵,确定所述依存关系判别结果,具体地基于预设最大生成树算法,在所述依存关系得分矩阵中选取满足预设得分选取条件的最大概率得分和,并将所述最大概率得分和对应的各目标概率得分对应的依存关系,和对应的向量化词组成的依存关系向量作为所述依存关系判别结果,其中,所述预设得分选取条件包括各目标概率得分对应的待处理词与所述待处理语句中的待处理词一一对应等,例如,假设各所述目标概率得分为A和B,其中,目标概率得分A表示词b依附于词a的概率得分,目标概率得分B表示词c依附于词b的概率得分,且词a对应向量化词为向量X,词b对应向量化词为向量Y,词c对应向量化词为向量Z,进而所述依存关系向量为向量(X,1,0,0,1,Y,1,0,0,1,Z),其中(1,0,0,1)表示词与词之间存在依存关系。
步骤E3,基于所述依存关系类型预测模型和所述依存关系判别结果,对所述向量化语句进行依存关系类型预测,得到目标依存句法分析结果。
基于所述依存关系类型预测模型和所述依存关系判别结果,对所述向量化语句进行依存关系类型预测,得到目标依存句法分析结果。
例如,假设所述语句为ABC,其中,词A与词B之间的依存关系类型为主谓关系类型,词B与词C之间的依存关系类型为动宾关系类型,则可判定所述语句的句式为主谓句式,词A对应的词成分为主语,词B对应的词成分为谓语,词C对应的词成分为宾语。
在本实施例中,通过对所述训练语句进行向量化,获得向量化语句;基于所述依存关系判别模型,对所述向量化语句进行依存关系判别,获得依存关系判别结果;基于所述依存关系类型预测模型和所述依存关系判别结果,对所述向量化语句进行依存关系类型预测,得到目标依存句法分析结果。在本实施例中,实现准确得到目标依存句法分析结果。
参照图3,图3是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
如图3所示,该评价对象抽取设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该评价对象抽取设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图3中示出的评价对象抽取设备结构并不构成对评价对象抽取设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图3所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及评价对象抽取方法程序。操作系统是管理和控制评价对象抽取设备硬件和软件资源的程序,支持评价对象抽取方法程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与评价对象抽取方法系统中其它硬件和软件之间通信。
在图3所示的评价对象抽取设备中,处理器1001用于执行存储器1005中存储的评价对象抽取方法程序,实现上述任一项所述的评价对象抽取方法的步骤。
本申请评价对象抽取设备具体实施方式与上述评价对象抽取方法各实施例基本相同,在此不再赘述。
本申请实施例还提供一种评价对象抽取装置,所述评价对象抽取装置包括:
第一获取模块,用于获取待处理评价数据;
确定模块,用于确定所述待处理评价数据中词与词之间的依存关系信息,词的词信息以及词性信息;
输入模块,用于将所述依存关系信息,词的词性信息以及词的词信息输入到预设抽取模型中;
其中,所述预设抽取模型由基于标注有第一预设标签的第一训练数据,对第一预设待训练模型进行第一迭代训练得到,所述第一训练数据包括训练语句和所述训练语句对应的预设拼接依存向量;
对象抽取模块,用于基于所述预设抽取模型对所述依存关系信息,词的词性信息以及词的词信息进行对象抽取处理,得到目标评价对象。
可选地,所述装置还包括:
第二获取模块,用于获取训练语句,以得到标注有第一预设标签的第一训练数据;
第三获取模块,用于基于所述标注有第一预设标签的第一训练数据,对第一预设待训练模型进行第一迭代训练,得到第一目标模型;
设置模块,用于将所述第一目标模型设置为所述预设抽取模型。
可选地,所述第三获取模块包括:
第一获取单元,用于获取第一预设待训练模型;
对象标签分析单元,用于将所述第一训练数据输入至所述第一预设待训练模型中,以对所述第一训练数据进行对象标签分析,获得第一预测标签;
计算单元,用于基于所述第一预测标签和所述第一预设标签,计算第一模型误差;
更新单元,用于基于所述第一模型误差,对所述第一预设待训练模型进行更新,直至所述第一预设待训练模型满足第一预设更新结束条件,以得到第一目标模型。
可选地,所述第二获取模块包括:
第二获取单元,用于获取训练语句,将所述训练语句输入至预设依存句法模型中;
依存句法分析单元,用于基于所述预设依存句法模型对所述训练语句进行词与词之间的依存句法分析,得到目标依存句法分析结果;
第一确定单元,用于基于所述目标依存句法分析结果,确定所述训练语句的预设拼接依存向量;
第二确定单元,用于基于所述预设拼接依存向量以及所述标注有第一预设标签的训练语句,确定第一训练数据。
可选地,所述第二获取模块还包括:
第三获取单元,用于获取标注有第二预设标签的第二训练数据和第二预设待训练模型,其中,所述第二预设标签为依存关系标签;
训练单元,用于基于所述标注有第二预设标签的第二训练数据,对第二预设待训练模型进行第二迭代训练,得到第二目标模型;
设置单元,用于将所述第二目标模型设置为所述预设依存句法模型。
可选地,所述训练单元包括:
依存关系标签分析子单元,用于将所述第二训练数据输入至所述第二预设待训练模型,以对所述第二训练数据进行词与词之间的依存关系标签分析,获得第二预测标签;
计算子单元,用于基于所述第二预测标签和所述第二预设标签,计算第二模型误差;
更新子单元,用于基于所述第二模型误差,对所述第二预设待训练模型进行更新,直至所述第二预设待训练模型满足第二预设更新结束条件,以得到第二目标模型。
可选地,所述第一确定单元包括:
输入子单元,用于将所述待处理评价数据输入至预设依存句法模型中;
依存句法分析子单元,用于基于所述预设依存句法模型对所述待处理评价数据进行依存句法分析,以得到所述待处理评价数据中词与词之间的依存关系信息。
可选地,所述预设依存句法模型包括依存关系判别模型和依存关系类型预测模型,
所述依存句法分析子单元用于实现:
对所述待处理评价数据进行向量化,获得向量化语句;
基于所述依存关系判别模型,对所述向量化语句进行依存关系判别,获得依存关系判别结果;
基于所述依存关系类型预测模型和所述依存关系判别结果,对所述向量化语句进行依存关系类型预测,得到所述待处理评价数据中词与词之间的依存关系信息。
可选地,所述依存关系判别模型包括第一特征提取模型、第一全连接网络、第二全连接网络和双仿射变换网络,
所述依存句法分析子单元还用于实现:
基于所述第一特征提取模型,对所述向量化语句进行特征提取,获得第一特征提取结果;
基于所述第一全连接网络和所述第二全连接网络,分别对所述第一特征提取结果进行全连接,获得第一句子向量和第二句子向量;
基于所述双仿射变换网络,对所述第一句子向量和所述第二句子向量进行双仿射变换,获得依存关系得分矩阵;
基于所述依存关系得分矩阵,得到依存关系判别结果。
可选地,所述训练语句包括待处理词,所述向量化语句包括向量化词,
所述依存句法分析子单元用于实现:
获取所述待处理词对应的待处理词向量、对应的待处理词性向量和对应的待处理词位置向量;
基于所述待处理词向量、所述待处理词性向量和所述待处理词位置向量,生成所述向量化词。
可选地,所述确定模块,包括:
输入单元,用于将所述待处理评价数据输入至预设依存句法模型中;
分析单元,用于基于所述预设依存句法模型,对所述待处理评价数据进行依存句法分析,得到待处理评价数据中词与词之间的依存关系信息。
本申请评价对象抽取装置的具体实施方式与上述评价对象抽取方法各实施例基本相同,在此不再赘述。
本申请还提供一种计算机程序产品、包括计算机程序,该计算机程序被处理器执行时实现上述的评价对象抽取方法的步骤。
本申请计算机程序产品的具体实施方式与上述评价对象抽取方法各实施例基本相同,在此不再赘述。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。

Claims (14)

1.一种评价对象抽取方法,其特征在于,所述评价对象抽取方法包括:
获取待处理评价数据;
确定所述待处理评价数据中词与词之间的依存关系信息,词的词信息以及词性信息;
将所述依存关系信息,词的词性信息以及词的词信息输入到预设抽取模型中;
其中,所述预设抽取模型由基于标注有第一预设标签的第一训练数据,对第一预设待训练模型进行第一迭代训练得到,所述第一训练数据包括训练语句和所述训练语句对应的预设拼接依存向量;
基于所述预设抽取模型对所述依存关系信息,词的词性信息以及词的词信息进行对象抽取处理,得到目标评价对象。
2.如权利要求1所述评价对象抽取方法,其特征在于,所述基于所述预设抽取模型对所述依存关系信息,词的词性信息以及词的词信息进行对象抽取处理,得到目标评价对象的步骤之前,所述方法包括:
获取训练语句,以得到标注有第一预设标签的第一训练数据;
基于所述标注有第一预设标签的第一训练数据,对第一预设待训练模型进行第一迭代训练,得到第一目标模型;
将所述第一目标模型设置为所述预设抽取模型。
3.如权利要求2所述评价对象抽取方法,其特征在于,所述基于所述标注有第一预设标签的第一训练数据,对第一预设待训练模型进行第一迭代训练,得到第一目标模型的步骤,包括:
获取第一预设待训练模型;
将所述第一训练数据输入至所述第一预设待训练模型中,以对所述第一训练数据进行对象标签分析,获得第一预测标签;
基于所述第一预测标签和所述第一预设标签,计算第一模型误差;
基于所述第一模型误差,对所述第一预设待训练模型进行更新,直至所述第一预设待训练模型满足第一预设更新结束条件,以得到第一目标模型。
4.如权利要求2所述评价对象抽取方法,其特征在于,所述获取训练语句,以得到标注有第一预设标签的第一训练数据的步骤,包括:
获取训练语句,将所述训练语句输入至预设依存句法模型中;
基于所述预设依存句法模型对所述训练语句进行词与词之间的依存句法分析,得到目标依存句法分析结果;
基于所述目标依存句法分析结果,确定所述训练语句的预设拼接依存向量;
基于所述预设拼接依存向量以及所述标注有第一预设标签的训练语句,确定第一训练数据。
5.如权利要求4所述评价对象抽取方法,其特征在于,所述基于所述预设依存句法模型对所述训练语句进行词与词之间的依存句法分析,得到目标依存句法分析结果的步骤之前,所述方法包括:
获取标注有第二预设标签的第二训练数据和第二预设待训练模型,其中,所述第二预设标签为依存关系标签;
基于所述标注有第二预设标签的第二训练数据,对第二预设待训练模型进行第二迭代训练,得到第二目标模型;
将所述第二目标模型设置为所述预设依存句法模型。
6.如权利要求5所述评价对象抽取方法,其特征在于,所述基于所述标注有第二预设标签的第二训练数据,对第二预设待训练模型进行第二迭代训练,得到第二目标模型的步骤,包括:
将所述第二训练数据输入至所述第二预设待训练模型,以对所述第二训练数据进行词与词之间的依存关系标签分析,获得第二预测标签;
基于所述第二预测标签和所述第二预设标签,计算第二模型误差;
基于所述第二模型误差,对所述第二预设待训练模型进行更新,直至所述第二预设待训练模型满足第二预设更新结束条件,以得到第二目标模型。
7.如权利要求4所述评价对象抽取方法,其特征在于,所述确定所述待处理评价数据中词与词之间的依存关系信息的步骤,包括:
将所述待处理评价数据输入至预设依存句法模型中;
基于所述预设依存句法模型对所述待处理评价数据进行依存句法分析,以得到所述待处理评价数据中词与词之间的依存关系信息。
8.如权利要求7所述评价对象抽取方法,其特征在于,所述预设依存句法模型包括依存关系判别模型和依存关系类型预测模型,
所述基于所述预设依存句法模型对所述待处理评价数据进行依存句法分析,以得到所述待处理评价数据中词与词之间的依存关系信息的步骤,包括:
对所述待处理评价数据进行向量化,获得向量化语句;
基于所述依存关系判别模型,对所述向量化语句进行依存关系判别,获得依存关系判别结果;
基于所述依存关系类型预测模型和所述依存关系判别结果,对所述向量化语句进行依存关系类型预测,得到所述待处理评价数据中词与词之间的依存关系信息。
9.如权利要求8所述评价对象抽取方法,其特征在于,所述依存关系判别模型包括第一特征提取模型、第一全连接网络、第二全连接网络和双仿射变换网络,
所述基于所述依存关系判别模型,对所述向量化语句进行依存关系判别,获得依存关系判别结果的步骤,包括:
基于所述第一特征提取模型,对所述向量化语句进行特征提取,获得第一特征提取结果;
基于所述第一全连接网络和所述第二全连接网络,分别对所述第一特征提取结果进行全连接,获得第一句子向量和第二句子向量;
基于所述双仿射变换网络,对所述第一句子向量和所述第二句子向量进行双仿射变换,获得依存关系得分矩阵;
基于所述依存关系得分矩阵,得到依存关系判别结果。
10.如权利要求8所述评价对象抽取方法,其特征在于,所述向量化语句包括向量化词,
所述对所述待处理评价数据进行向量化,获得向量化语句的步骤,包括:
获取所述待处理评价数据对应的待处理词向量、对应的待处理词性向量和对应的待处理词位置向量;
基于所述待处理词向量、所述待处理词性向量和所述待处理词位置向量,生成所述向量化词。
11.一种评价对象抽取装置,其特征在于,所述评价对象抽取装置包括:
第一获取模块,用于获取待处理评价数据;
确定模块,用于确定所述待处理评价数据中词与词之间的依存关系信息,词的词信息以及词性信息;
输入模块,用于将所述依存关系信息,词的词性信息以及词的词信息输入到预设抽取模型中;
其中,所述预设抽取模型由基于标注有第一预设标签的第一训练数据,对第一预设待训练模型进行第一迭代训练得到,所述第一训练数据包括训练语句和所述训练语句对应的预设拼接依存向量;
对象抽取模块,用于基于所述预设抽取模型对所述依存关系信息,词的词性信息以及词的词信息进行对象抽取处理,得到目标评价对象。
12.一种评价对象抽取设备,其特征在于,所述评价对象抽取设备包括:存储器、处理器以及存储在存储器上的用于实现所述评价对象抽取方法的程序,
所述存储器用于存储实现评价对象抽取方法的程序;
所述处理器用于执行实现所述评价对象抽取方法的程序,以实现如权利要求1至10中任一项所述评价对象抽取方法的步骤。
13.一种可读存储介质,其特征在于,所述可读存储介质上存储有实现评价对象抽取方法的程序,所述实现评价对象抽取方法的程序被处理器执行以实现如权利要求1至10中任一项所述评价对象抽取方法的步骤。
14.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至10任一项所述的方法。
CN202011421420.9A 2020-12-07 2020-12-07 评价对象抽取方法、装置、设备、存储介质象及程序产品 Pending CN114595683A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011421420.9A CN114595683A (zh) 2020-12-07 2020-12-07 评价对象抽取方法、装置、设备、存储介质象及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011421420.9A CN114595683A (zh) 2020-12-07 2020-12-07 评价对象抽取方法、装置、设备、存储介质象及程序产品

Publications (1)

Publication Number Publication Date
CN114595683A true CN114595683A (zh) 2022-06-07

Family

ID=81811946

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011421420.9A Pending CN114595683A (zh) 2020-12-07 2020-12-07 评价对象抽取方法、装置、设备、存储介质象及程序产品

Country Status (1)

Country Link
CN (1) CN114595683A (zh)

Similar Documents

Publication Publication Date Title
CN110705301B (zh) 实体关系抽取方法及装置、存储介质、电子设备
CN110222330B (zh) 语义识别方法及装置、存储介质、计算机设备
CN111198948A (zh) 文本分类校正方法、装置、设备及计算机可读存储介质
WO2022052505A1 (zh) 基于依存句法的句子主干抽取方法、设备和可读存储介质
CN108959474B (zh) 实体关系提取方法
CN111666427A (zh) 一种实体关系联合抽取方法、装置、设备及介质
CN112084793A (zh) 基于依存句法的语义识别方法、设备和可读存储介质
WO2022048194A1 (zh) 事件主体识别模型优化方法、装置、设备及可读存储介质
CN112668341B (zh) 文本正则化方法、装置、设备和可读存储介质
CN112069799A (zh) 基于依存句法的数据增强方法、设备和可读存储介质
CN107305543B (zh) 对实体词的语义关系进行分类的方法和装置
CN111666766A (zh) 数据处理方法、装置和设备
CN113688232B (zh) 招标文本分类方法、装置、存储介质及终端
CN112417878B (zh) 实体关系抽取方法、系统、电子设备及存储介质
CN114896395A (zh) 语言模型微调方法、文本分类方法、装置及设备
CN114175017A (zh) 模型构建方法、分类方法、装置、存储介质及电子设备
CN107943788B (zh) 企业简称生成方法、装置及存储介质
CN114492601A (zh) 资源分类模型的训练方法、装置、电子设备及存储介质
WO2023168810A1 (zh) 药物分子的性质预测方法、装置、存储介质及计算机设备
CN116070632A (zh) 一种非正式文本实体标签识别方法和装置
CN114595683A (zh) 评价对象抽取方法、装置、设备、存储介质象及程序产品
CN115600601A (zh) 一种税法知识库构建方法、装置、设备及介质
CN114138928A (zh) 文本内容提取的方法、系统、装置、电子设备及介质
CN113656669A (zh) 标签更新方法及装置
CN111199259B (zh) 标识转换方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination