CN113343714B - 信息提取方法、模型训练方法及相关设备 - Google Patents

信息提取方法、模型训练方法及相关设备 Download PDF

Info

Publication number
CN113343714B
CN113343714B CN202110753704.6A CN202110753704A CN113343714B CN 113343714 B CN113343714 B CN 113343714B CN 202110753704 A CN202110753704 A CN 202110753704A CN 113343714 B CN113343714 B CN 113343714B
Authority
CN
China
Prior art keywords
entity
text
emotion information
word
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110753704.6A
Other languages
English (en)
Other versions
CN113343714A (zh
Inventor
罗通
蒋宁
王洪斌
吴海英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mashang Xiaofei Finance Co Ltd
Original Assignee
Mashang Xiaofei Finance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mashang Xiaofei Finance Co Ltd filed Critical Mashang Xiaofei Finance Co Ltd
Priority to CN202110753704.6A priority Critical patent/CN113343714B/zh
Publication of CN113343714A publication Critical patent/CN113343714A/zh
Application granted granted Critical
Publication of CN113343714B publication Critical patent/CN113343714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请实施例提供一种信息提取方法、模型训练方法及相关设备,该方法包括:获取待处理文本;将所述待处理文本输入至实体对象识别模型,输出所述待处理文本中的N个实体词,所述N为正整数;分别将所述N个实体词中的每个实体词和所述待处理文本作为输入量输入至情感信息提取模型,输出所述N个实体词一一对应的N个情感信息。采用本申请实施例提供的方法,提高了在文本中提取情感信息的准确率。

Description

信息提取方法、模型训练方法及相关设备
技术领域
本申请实施例涉及自然语言处理技术领域,尤其涉及一种信息提取方法、模型训练方法及相关设备。
背景技术
随着互联网技术的发展,人们既可以通过互联网获取信息资源,也可以针对一些人物、事件、产品等分享一些有价值的信息资源,以便于他人参考。比如,用户在网络上购买某种产品后,可以在网上发表一些对于产品的评价、使用心得等内容,方便其他人更全面的了解产品。或者,针对当前热门事件发表一些自己的看法等。这些具有主观色彩的信息通常能在一定程度上反应大众舆论对某一件事情或产品的看法,因此对这些信息资源进行情感分析具有非常重要的社会价值。
相关技术中,情感分析可以在多个粒度上实现,包括文档级、语句级和实体目标级。而现有很多应用场景都需要在实体目标级别上进行更细致的情感分析。在实体目标级别上进行情感分析首先需要使用命名实体识别模型识别出文本中的实体目标,然后依据实体词典、情感词典和依存句法分析等方法构建句法依赖树,根据句法依赖树查找文本中的情感信息。
但是,现有提取情感信息的方法依赖于实体词典和情感词典,仅仅考虑了实体词语与文本中每个词的词性之间的依存关系,当文本中出现实体词典和情感词典中不包含的新的实体词和新的情感词时,或者,当文本中不包含实体目标时,会导致无法从文本中提取出实体目标对应有效情感信息或者情感信息提取准确率非常低。
发明内容
本申请实施例提供一种信息提取方法、模型训练方法及相关设备,以提高情感信息提取准确率。
第一方面,本申请实施例提供一种信息提取方法,包括:
获取待处理文本;
将所述待处理文本输入至实体对象识别模型,输出所述待处理文本中的N个实体词,所述N为正整数;
分别将所述N个实体词中的每个实体词和所述待处理文本作为输入量输入至情感信息提取模型,输出所述N个实体词一一对应的N个情感信息。
可以看出,在本申请实施例中,先通过实体对象识别模型对待处理文本进行实体识别,以识别出该待处理文本中的实体词,然后将该待处理文本和识别出的实体词一同输入到情感信息提取模型,使得在进行情感信息提取时,能够从语义的角度找出实体对应的情感信息,进而提高情感信息提取的准确率。另外,由于输入情感信息提取模型的输入信息除了实体词还有待处理文本,如果实体对象识别模型没有识别出实体词,情感信息提取模型也能在该文本中提取出情感信息,进一步提高了情感信息提取的准确性。
第二方面,本申请实施例提供一种模型训练方法,包括:
确定实体识别训练集和情感信息训练集;所述实体识别训练集包括多个实体识别训练样本,每个实体识别训练样本包括一个文本以及所述一个文本的P个实体词,所述P为大于或等于1的整数;所述情感信息训练集包括多个情感信息训练样本,每个情感信息训练样本包括一个文本、所述一个文本的一个实体词以及所述一个实体词对应的情感信息;
将所述实体识别训练集输入至第一神经网络中进行训练,得到实体对象识别模型,以及,将所述情感信息训练集输入至第二神经网络进行训练,得到情感信息提取模型。
可以看出,在本申请实施例中,训练实体对象识别模型使用的训练样本包括一个文本和该文本的P个实体词,这样训练得到的实体对象识别模型只需要输入待处理文本,即可输出待处理文本的实体词,简化实体词提取的操作;其次,训练情感信息提取模型使用的训练样本包括一个文本、一个文本的一个实体词以及一个实体词对应的情感信息,这样将待处理文本和处理文本的实体词输入至训练得到的情感信息提取模型,即可输出情感信息,使得在进行情感信息提取时,能够从语义的角度找出实体对应的情感信息,进而提高情感信息提取的准确率。另外,由于输入训练后的情感信息提取模型的输入信息除了实体词还有待处理文本,如果实体对象识别模型没有识别出实体词,情感信息提取模型也能在该文本中提取出情感信息,进一步提高了情感信息提取的准确性。
第三方面,本申请实施例提供一种信息提取装置,包括:
文本获取模块,用于获取待处理文本;
实体识别模块,用于将所述待处理文本输入至实体对象识别模型,输出所述待处理文本中的N个实体词,所述N为正整数;
信息提取模块,用于分别将所述N个实体词中的每个实体词和所述待处理文本作为输入量输入至情感信息提取模型,输出所述N个实体词一一对应的N个情感信息。
第四方面,本申请实施例提供一种模型训练装置,包括:
样本确定模块,用于确定实体识别训练集和情感信息训练集;所述实体识别训练集包括多个实体识别训练样本,每个实体识别训练样本包括一个文本以及所述一个文本的P个实体词,所述P为大于或等于1的整数;所述情感信息训练集包括多个情感信息训练样本,每个情感信息训练样本包括一个文本、所述一个文本的一个实体词以及所述一个实体词对应的情感信息;
模型训练模块,用于将所述实体识别训练集输入至第一神经网络中进行训练,得到实体对象识别模型,以及,将所述情感信息训练集输入至第二神经网络进行训练,得到情感信息提取模型。
第五方面,本申请实施例提供一种计算机设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行本申请实施例第一方面所述的信息提取方法或第二方面所述的模型训练方法。
第六方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现本申请实施例第一方面所述的信息提取方法或第二方面所述的模型训练方法。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一示例性实施例示出的信息提取方法的实施环境示意图;
图2是本申请一示例性实施例示出的信息提取方法的流程示意图;
图3是本申请一示例性实施例示出的信息提取方法的应用场景图;
图4是本申请另一示例性实施例示出的信息提取方法的流程示意图;
图5是本申请一示例性实施例示出的模型训练方法的流程示意图;
图6是本申请一示例性实施例示出的模型结构示意图;
图7是本申请一示例性实施例示出的信息提取方法的可视化场景图;
图8是本申请一示例性实施例示出的信息提取装置的结构示意图;
图9是本申请一示例性实施例示出的模型训练装置的结构示意图;
图10是本申请一示例性实施例示出的计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
情感分析可以在多个粒度上进行,包括文档级、语句级和实体目标级。现有很多应用场景都需要在实体目标级别上进行更细致的情感分析,即需要在一段文本中找出每个实体目标对应的情感信息。比如,“我买的洗衣机非常好用”这句话,如果在实体目标级别上对这句话进行情感分析,可以得到实体目标为“洗衣机”,对应的的情感信息为“好用”。目前,在实体目标级别上进行情感分析首先需要使用命名实体识别模型识别出文本中的实体目标,然后依据实体词典、情感词典和依存句法分析等方法构建句法依赖树,根据句法依赖树查找文本中的情感信息。具体的,首先利用预先创建的实体词典,在文本中提取出在实体词典中存在的实体词,然后,利用预先创建的情感词典,按照每个词的词性给文本中每个词以相应的情感倾向度权值,然后在从文本中提取出所有的情感词,最后根据句法依赖关系确定每个实体词对应的情感词。但是,现有提取情感信息的方法依赖于实体词典和情感词典,仅仅考虑了实体词语与文本中每个词的词性之间的依存关系,当文本中出现实体词典和情感词典中不包含的新的实体词和新的情感词时,或者,当文本中不包含实体目标时,会导致无法从文本中提取出实体目标对应有效情感信息或者情感信息提取准确率非常低。
针对此缺陷,本申请的技术方案主要在于:首先构建两个训练集,分别为实体识别训练集和情感信息识别训练集,其中,实体识别训练集包含大量实体识别训练文本以及每条实体识别训练文本对应的实体词,使用实体识别训练集训练神经网络得到实体对象识别模型;情感信息识别训练集包括大量情感信息训练文本、每条情感信息训练文本的实体词以及每个实体信息对应的情感信息,使用情感信息识别训练集训练神经网络得到情感信息提取模型。然后使用实体对象识别模型识别待处理文本中的实体词,然后将待处理文本和所述待处理文本中的实体词作为输入量输入至情感信息提取模型中,情感信息提取模型能够从语义角度理解待处理文本,在待处理文本中提取出每个实体词对应的情感信息,使得情感信息提取结果更加准确。
需要说明的是,本申请实施例中的实体可以是物品、人名、地名以及其他所有以名称为标识的实体。比如,实体在电商领域可以但不限于是商品、商品的属性以及商家的行为等,在消费金融领域可以但不限于是消费金融产品以及该产品的各类属性等。
示例性的,手机、电脑、手表、家电等产品都属于实体,以及手机、电脑等产品的各种属性也都属于实体。再比如,在消费金融领域,基金、股票等金融产品属于实体,相应的,基金和股票等金融产品的各种属性也都属于实体。
图1是本申请一示例性实施例示出的信息提取方法的实施环境示意图。
如图1所示,本实施例提供的应用场景主要包括:终端设备101,信息存储设备102和文本处理平台103,终端设备101和信息存储设备102之间以及信息存储设备102与文本处理平台103之间以有线或无线的方式进行通信,其中,有线方式可以是终端设备101和文本处理平台103之间通过数据线进行数据传输;无线方式可以是通过蓝牙、无线网络等进行通信。
需要说明的是,所述终端设备101可以但不限于是手机、平板、计算机、显示终端、智能家电、智能穿戴设备等智能交互设备,信息存储设备102可以但不限于是数据库、存储服务器等设备,文本处理平台103可以但不限于是服务器、手机、平板电脑等具有信息处理功能的设备。
示例性的,用户通过终端设备输入一些文本(比如,在电商平台输入产品评价信息、在网络发表评论信息等),终端设备采集到用户输入的文本信息后,可以将文本信息存储于数据库、存储服务器等存储设备中,当相关人员想要对网络上的一些评论信息、电商平台上的产品评价信息进行情感分析的时候,文本处理平台在相应的存储设备中提取相关文本信息,然后对相关文本信息进行情感分析。
下面将结合具体应用场景对本申请提供的信息提取方法的实现过程进行详细描述。
图2是本申请一示例性实施例示出的信息提取方法的流程示意图。
如图2所示,本实施例提供的方法可以包括以下步骤。
S201,获取待处理文本。
本步骤中,待处理文本可以是电商平台上的产品评论,也可以是网络上针对一些事件或人物的评价,也可以是其他需要进行情感分析的语句等。
在一种可能的实施例中,待处理文本的获取方式可以是:文本处理平台向存储有待处理文本的存储设备发送获取请求,存储设备接收到该获取请求之后向文本处理平台返回相应的文本。
示例性的,以对电商平台上的产品评价进行情感分析的场景为例,如图3所示,用户通过操作终端301在电商平台上输入关于洗衣机的评价信息,电商平台上关于型号A的洗衣机的评价有i条,分别为评价1:洗衣机非常好用,包装也很好,评价2:第一次买这款洗衣机,有点失望……评价i:性价比很高,i条评论均存储在数据库302中,当需要对该洗衣机的评价进行情感分析时,服务器303向数据库发送获取请求,该获取请求可以包含该洗衣机的型号A,数据库接收到获取请求之后,查找所有关于该型号A洗衣机的i评价,并将i条评价返回至服务器。
S202,将所述待处理文本输入至实体对象识别模型,输出所述待处理文本中的N个实体词,所述N为正整数。
本步骤中,实体对象识别模型是基于大量实体识别训练样本训练得到的,且每个实体识别训练样本包括一个文本和该文本中的所有实体词。因此,在使用实体对象识别模型进行实体识别时,其输入是原始的待处理文本,输出得到待处理文本中的每个实体词。
示例性的,如图3所示,服务器303获取到的待处理文本为评论1:洗衣机非常好用,包装也很好,则将该文本输入至实体对象识别模型中进行实体对象识别,输出的实体词为:洗衣机和包装。
S203,分别将所述N个实体词中的每个实体词和所述待处理文本作为输入量输入至情感信息提取模型,输出所述N个实体词一一对应的N个情感信息。
本步骤中,所述情感信息提取模型是基于大量情感信息训练样本训练得到的,且每个情感信息训练样本包括一个文本、该文本中的一个实体词以及该实体词对应的情感信息。因此,在使用训练得到的情感信息提取模型提取情感信息中每个实体词对应的情感信息时,当待处理文本中包含多个实体词(即N大于1)时,需要对每个实体词分别提取情感信息,即每次将N个实体词中的一个实体词和待处理文本输入至情感信息提取模型中,输出该一个实体词对应的情感信息,一共提取N次,得到N个实体词各自对应的情感信息。
示例性的,如图3所示,服务器303获取到的待处理文本为评论1:洗衣机非常好用,包装也很好,则将该文本输入至实体对象识别模型中进行实体对象识别,输出的实体词为:洗衣机和包装。那么,将待处理文本“洗衣机非常好用,包装也很好”以及其中一个实体词“洗衣机”输入至情感信息提取模型,输出“洗衣机”对应的情感信息“好用”,然后再将待处理文本“洗衣机非常好用,包装也很好”以及另一个实体词“包装”输入至情感信息提取模型,输出“包装”对应的情感信息“好”。
可以看出,在本申请实施例中,先通过实体对象识别模型对待处理文本进行实体识别,以识别出该待处理文本中的实体词,然后将该待处理文本和识别出的实体词一同输入到情感信息提取模型,使得在进行情感信息提取时,能够从语义的角度找出实体对应的情感信息,进而提高情感信息提取的准确率。另外,由于输入情感信息提取模型的输入信息除了实体词还有待处理文本,如果实体对象识别模型没有识别出实体词,情感信息提取模型也能在该文本中提取出情感信息,进一步提高了情感信息提取的准确性。
需要说明的是,在实际应用中,每个行业或领域都有对应的专有词库,为了解决实体对象识别模型和情感信息提取模型可能存在的漏识别的情况,可以预先针对各个行业或领域对应的专有词库构建一个实体词典和情感词典,然后基于实体词典和情感词典对实体对象识别模型输出的实体词和情感信息提取模型输出的情感信息进一步进行优化,这样即便实体对象识别模型和情感信息提取模型出现了漏识别的情况,也可以根据实体词典和情感词典将模型漏识别的实体词和情感信息识别出来,不仅解决了因模型漏识别导致的情感信息提取不完整的问题,还丰富了最终的情感信息提取结果。
下面将结合图4详细描述根据实体词典和情感词典对实体对象识别模型输出的实体词和情感信息提取模型输出的情感信息进行优化的过程。
如图4所示,本实施例提供的方法可以包括以下步骤。
S401,根据实体词典和所述N个实体词,确定所述待处理文本对应的M个有效实体词。
在一种可能的实施例中,实体词典中可以包括待处理文本所属领域内的所有实体对应的实体信息,所述实体信息包括目标实体词和多个子实体词,所述多个子实体词分别为表示同一个实体的不同实体名称,所述目标实体词为所述多个子实体词对应的统一名称。比如,同一个实体“手机”可能存在多种不同的名称,如:花粉手机、菊花手机、型号A手机等,而这多种名称均对应一个统一的名称:安卓手机,那么,安卓手机就作为目标实体词,花粉手机、菊花手机和型号A手机等就作为多个子实体词。
本步骤中,在通过实体对象识别模型输入待处理文本中的N个实体词后,可以将N个实体词分别输入至实体词典中进行匹配,将所述实体词典中与所述每个实体词匹配的目标实体词和多个子实体词作为所述待处理文本对应的有效实体词。
示例性的,待处理文本“安卓手机质量好,尤其是花粉手机外观也很好看”,经过实体对象识别模型后,仅仅识别出了一个实体词“安卓手机”,实体对象识别模型漏识别了“花粉手机”这个实体词。然后,将“安卓手机”输入至实体词典中进行匹配,可以匹配到“花粉手机”“菊花手机”、“型号A手机”这三个子实体词。再比如,若实体对象识别模型仅仅识别出了“花粉手机”这一个实体词,同样可以将“花粉手机”输入至实体词典中进行匹配,可以得到目标实体词“安卓手机”以及其他两个子实体词“菊花手机”和“型号A手机”。最终,将“花粉手机”“菊花手机”、“型号A手机”这三个子实体词和“安卓手机”这个目标实体词均作为该待处理文本的有效实体词。
S402,根据所述M个有效实体词和情感词典,确定每个所述有效实体词对应的有效情感信息,所述M为正整数。
在一种可能的实施例中,情感词典中可以包括待处理文本所属领域内的所有实体词对应的情感信息。
本步骤中,在得到待处理文本对应的M个有效实体词之后,将所述情感词典中与所述目标实体词和多个子实体词对应的情感信息作为有效情感信息。
示例性的,待处理文本“安卓手机质量好,尤其是花粉手机外观也很好看”,经过实体对象识别模型输出实体词包括“安卓手机”和“花粉手机”,分别将“安卓手机”和“花粉手机”与待处理文本输入至情感信息提取模型中,情感信息提取模型只输出了“安卓手机”对应的情感信息“好”,没有输出“花粉手机”对应的情感信息。在经过实体词典进行优化后,最终得到的有效实体词为“花粉手机”“菊花手机”、“型号A手机”和“安卓手机”。然后将情感词典中与“花粉手机”对应的情感信息、与“菊花手机”对应的情感信息、与“型号A手机”对应的情感信息以及与“安卓手机”对应的情感信息作为有效情感信息,从而避免了因实体对象识别模型漏识别或情感信息漏识别导致的情感信息提取不完整、不准确的问题。
本实施例中,通过实体词典和情感词典对实体对象识别模型输出的实体词以及情感信息提取模型输出的情感信息进行优化,解决了因模型漏识别导致的情感信息提取不完整、不准确的问题。同时,还丰富了情感信息提取结果,可以供相关人员进行参考使用。
在一种或多种可能的实施例中,所述实体对象识别模型和情感信息提取模型均可以采用序列标注模型,比如可以是双向长短记忆网络层(Bi-Long Short-Term Memory,BiLSTM)+条件随机场层(Conditional Random Fields,CRF),也可以是预训练模型+BiLSTM+CRF。
在另一种可能的实施例中,情感信息提取模型还可以是按字节分类模型,比如,卷积神经网络(Convolutional Neural Networks,CNN)、循环神经网络(Recurrent NeuralNetwork,RNN)等深度学习网络。
本实施例中,以实体对象识别模型和情感信息提取模型均为序列标注模型:语言表示层(Bidirectional Encoder Representations from Transformers,BERT)+BiLSTM+CRF为例,结合图6,对模型各个结构的功能进行描述。
其中,语言表示层为一种预训练语言模型。
如图6所示,在实体对象识别模型中,所述语言表示层,用于将输入的待处理文本转换成第一句子向量,以及将所述第一句子向量输入至所述双向长短记忆网络层;所述双向长短记忆网络层,用于识别所述第一句子向量中的第一实体词向量以及所述第一实体词向量对应的概率值;所述条件随机场层,用于根据所述第一实体词向量以及所述第一实体词向量对应的概率值,确定所述待处理文本中的实体词。
具体的,语言表示层中自带字典表,该字典表表示每个词的词语标识与词向量之间的对应关系,当语言表示层接收搭配输入的待处理文本之后,先将待处理文本中的每个词转换成对应的词语标识,再按照每个词语标识在字典表中查找每个词对应的词向量,最终将各个词向量拼接得到待处理文本对应的第一句子向量,该第一句子向量能够描述待处理文本的语义。
进一步的,语言表示层将得到的第一词向量输入至双向长短记忆网络层,双向长短记忆网络层为第一句子向量中的每个词向量赋予一个概率值,该概率值用于表示该词向量对应的词为实体词的概率。
进一步的,双向长短记忆网络层将第一句子向量和每个实体词向量对应的概率值输入至条件随机场层,条件随机场层根据每个词向量对应的概率值得到条件概率分布,最终根据条件概率分布确定带处理文本中的实体词。
如图6所示,在实情感信息提取模型中,所述语言表示层,用于将输入的待处理文本转换成第二句子向量,以及将输入的实体词转换成第二实体词向量,以及将所述第二句子向量和所述第二实体词向量输入至所述双向长短记忆网络层;所述双向长短记忆网络层,用于在所述第二句子向量中识别所述第二实体词向量对应的情感信息以及所述情感信息对应的概率值;所述条件随机场层,用于根据所述情感信息对应的概率值,确定所述待处理文本中的实体词对应的情感信息。
可以理解的是,本实施例中情感信息提取模型的结构和实体对象识别模型的结构相同,其每个网络层的功能和上述实体对象识别模型中每个网络层的功能相同,此处不再重复说明。
图5是本申请一示例性实施例示出的模型训练方法的流程示意图,本实施例对上述信息提取方法所使用的实体对象识别模型和情感信息提取模型的训练过程进行详细描述。
如图5所示,本实施例提供的模型训练方法可以包括以下步骤。
S501,确定实体识别训练集和情感信息训练集;所述实体识别训练集包括多个实体识别训练样本,每个实体识别训练样本包括一个文本以及所述一个文本的P个实体词,所述P为大于或等于1的整数;所述情感信息训练集包括多个情感信息训练样本,每个情感信息训练样本包括一个文本、所述一个文本的一个实体词以及所述一个实体词对应的情感信息。
需要说明的是,本申请实施例涉及到的是实体对象识别模型和情感信息提取模型这两个模型,因此,需要分别构建两个训练集,即实体识别训练集和情感信息训练集。
在一种可能的实施例中,可以在各个领域的专用数据库或存储服务器内提取多个领域内的文本,针对每一条文本可以采用机器预标注加人工审核的方式标注实体词标签和情感信息标签,比如,机器预先按照文本中每个词的词性,将文本中所有的名词标注成实体词标签,将文本中所有的形容词全部标注成情感信息标签,然后再由人工对标注结果进行审核,删除那些非实体的标签和非情感信息的标签,最终得到每一个文本对应的P个实体词标签和每个实体词对应的情感信息标签,P为大于或等于1的整数。
进一步的,在对每个文本标注完实体词标签和情感信息标签后,构建实体识别训练样本和情感信息训练样本。具体的,将每一个文本以及该文本对应的P个实体词标签作为一个实体识别训练样本,可以得到大量实体识别训练样本构成的实体识别训练集。然后针对文本中的每一个实体词,分别构建情感信息训练样本,将每一个文本、该文本对应的P个实体词标签中的一个实体词标签,以及该实体词标签对应的情感信息标签作为一个情感信息训练样本。
需要说明的是,本申请的实体词和情感信息均采用BI标签进行标注,其他字标注为O。
示例性的,一条文本为:包装非常好,收到东西一点都没有破损。小型洗衣机质量也很好。则该文本中的实体词为:包装,洗衣机。情感信息为:好,质量+好。对该条文本标注的实体词标签则为:B I O O O O O O O O O O O O O O O O O B I I O O O O O,其中,第一个“BI”表示该文本中的实体词“包装”,第二个“BII”表示该文本中的实体词“洗衣机”。实体词“包装”对应的情感信息标签为:O O O O B O O O O O O O O O O O O O O O O OO O O O O;实体词“洗衣机”对应的情感信息标签为:O O O O O O O O O O O O O O O OO O O O O O B I O O I。则我们可以构造如下一条实体识别训练样本:
文本:包装非常好,收到东西一点都没有破损。小型洗衣机质量也很好;
实体词标签:B I O O O O O O O O O O O O O O O O O O B I O O O O O。
进一步的,由于上述文本中包含“包装”和“洗衣机”两个实体词,因此,可以构建两条情感信息训练样本,分别为:
第一训练样本(实体为包装):
文本:包装非常好,收到东西一点都没有破损。小型洗衣机质量也很好。
实体词:1 1O O O O O O O O O O O O O O O O O O O O O O O O O。
情感信息标签:O O O O B O O O O O O O O O O O O O O O O O O O O O O。
第二训练样本(实体为洗衣机):
文本:包装非常好,收到东西一点都没有破损。小型洗衣机质量也很好。
实体词:O O O O O O O O O O O O O O O O O O O 1 1 1O O O O O。
情感信息标签:O O O O O O O O O O O O O O O O O O O O O O B I O O I。
再比如,针对文本:怎么这么慢,还没收到快递,其实体词为:快递,情感信息为:慢;则针对该文本构建的实体识别训练样本为:
文本:怎么这么慢,还没收到快递
实体词标签:O O O O O O O O O O B I;
情感信息训练样本为:
文本:怎么这么慢,还没收到快递
实体词:O O O O O O O O O O 1 1;
情感信息标签:O O O O B O O O O O O O。
需要说明的是,在构建实体识别训练样本和情感信息训练样本时,可能存在不包含实体的文本,针对不包含实体的文本,其对应的实体词标签均用O表示。相应的,在情感信息训练样本中的实体词部分为全0序列。
比如,文本:我都无语了。该文本中没有实体词,则其对应的实体词标签为:O O OO O,情感信息为:无语,对应的情感信息标签为:O O B I O。则构建的实体识别训练样本为:
文本:我都无语了;
实体词标签:O O O O O。
情感信息训练样本为:
文本:我都无语了;
实体词:0 0 0 0 0;
情感信息标签:O O B I O。
S502,将所述实体识别训练集输入至第一神经网络中进行训练,得到实体对象识别模型,以及,将所述情感信息训练集输入至第二神经网络进行训练,得到情感信息提取模型。
本步骤中,在确定了实体识别训练集和情感信息训练集后,将实体识别训练集中的每一条实体识别训练样本输入至第一神经网络中进行训练,将情感信息训练集中的每一条情感信息训练样本输入至第二神经网络中中进行训练。
本步骤中,第一神经网络和第二神经网络均采用BERT++BILSTM+CRF结构,其结构图如图6所示。
可以看出,在本申请实施例中,训练实体对象识别模型使用的训练样本包括一个文本和该文本的P个实体词,这样训练得到的实体对象识别模型只需要输入待处理文本,即可输出待处理文本的实体词,简化实体词提取的操作;其次,训练情感信息提取模型使用的训练样本包括一个文本、一个文本的一个实体词以及一个实体词对应的情感信息,这样将待处理文本和处理文本的实体词输入至训练得到的情感信息提取模型,即可输出情感信息,使得在进行情感信息提取时,能够从语义的角度找出实体对应的情感信息,进而提高情感信息提取的准确率。另外,由于输入训练后的情感信息提取模型的输入信息除了实体词还有待处理文本,如果实体对象识别模型没有识别出实体词,情感信息提取模型也能在该文本中提取出情感信息,进一步提高了情感信息提取的准确性。
进一步的,在进行情感信息提取时,采用深度神经网络构建分类模型,同时将原始文本和实体词一同输入到情感信息提取模型,能够从语义的角度,找出实体对应的情感信息,提高了情感信息提取的准确率。
在一种或多种可能的实施例中,所述模型训练方法还包括:根据所述实体识别训练集生成实体词典,以及,根据所述情感信息训练集生成情感词典;所述实体词典包括至少一个实体的实体信息,所述实体信息包括目标实体词和多个子实体词,所述多个子实体词分别为表示同一个实体的不同实体名称,所述目标实体词为所述多个子实体词对应的统一名称,所述情感词典包括至少一个实体词对应的情感信息。
在实际应用中,每个行业或领域都有对应的专有词库,为了解决实体对象识别模型和情感信息提取模型可能存在的漏识别的情况,可以预先针对各个行业或领域的实体识别训练集和情感信息训练集构建一个实体词典和情感词典,然后基于实体词典和情感词典对实体对象识别模型输出的实体词和情感信息提取模型输出的情感信息进一步进行优化,这样即便实体对象识别模型和情感信息提取模型出现了漏识别的情况,也可以根据实体词典和情感词典将模型漏识别的实体词和情感信息识别出来,不仅解决了因模型漏识别导致的情感信息提取不完整的问题,还丰富了最终的情感信息提取结果。
为了更好的理解本申请,下面将结合图7从训练集构建、模型训练、模型应用、以及对模型输出结果的优化整个完整流程对本申请进行描述。
图7是本申请一示例性实施例示出的信息提取方法的可视化场景图。
如图7所示,横向从左到右为训练集构建、模型训练过程,纵向从上到下为模型应用和结果优化过程。
参考图7,在相应行业领域对应的数据库内获取目标文本集,该目标文本集中包括大量目标文本,针对每一个目标文本构建实体识别训练样本和情感信息训练样本,得到实体识别训练集和情感信息训练集,基于实体识别训练集训练得到实体对象识别模型,基于情感信息训练集训练得到情感信息提取模型。
进一步的,两个模型训练完成后,若需要对用户通过客户端输入的一些文本进行情感信息,则在相应的数据库、存储服务器等存储设备中获取相应的文本作为待处理文本输入至实体对象识别模型,得到输出的该待处理文本中的N个实体词,分别将N个实体词中的每个实体词和该待处理文本输入值情感信息提取模型,得到输出的每个实体词对应的情感信息。然后再基于实体词典和情感词典对实体对象识别模型输出的M个实体词和情感信息提取模型输出的每个实体词对应的情感信息进行优化,得到M个有效实体词以及每个有效实体词对应的情感信息。
本实施例中,利用实体对象识别模型可以准确的在文本中提取出所有实体词,并且在提取情感信息时,将每个实体词和文本作为情感信息提取模型的输入,可以在语义角度准确的找出与该实体词对应的情感信息,解决了在多个实体词和情感信息共存的场景下情感信息提取不准确的问题。更进一步的,使用上述实体对象识别模型和情感信息提取模型分别进行实体识别和情感信息提取,可以识别出训练集中没有出现过的实体词和情感信息,当文本中没有实体词时,也可以提取出有效的情感信息。进一步的,通过实体词典和情感词典,可以在实体对象识别模型漏识别实体词和情感信息提取模型漏提取情感信息的情况下,可以将模型漏识别的实体词和情感信息识别出来,不仅解决了因模型漏识别导致的情感信息提取不完整的问题,还丰富了最终的情感信息提取结果。
图8是本申请一示例性实施例示出的信息提取装置的结构示意图,
如图8所示,本实施例提供的信息提取装置包括:
文本获取模块801,用于获取待处理文本;
实体识别模块802,用于将所述待处理文本输入至实体对象识别模型,输出所述待处理文本中的N个实体词,所述N为正整数;
信息提取模块803,用于分别将所述N个实体词中的每个实体词和所述待处理文本作为输入量输入至情感信息提取模型,输出所述N个实体词一一对应的N个情感信息。
进一步的,所述装置还包括:信息优化模块804,用于根据实体词典和所述N个实体词,确定所述待处理文本对应的M个有效实体词;根据所述M个有效实体词和情感词典,确定每个所述有效实体词对应的有效情感信息,所述M为正整数。
进一步的,所述实体词典包括至少一个实体的实体信息,所述实体信息包括目标实体词和多个子实体词,所述多个子实体词分别为表示同一个实体的不同实体名称,所述目标实体词为所述多个子实体词对应的统一名称,所述情感词典包括至少一个实体词对应的情感信息;
所述信息优化模块具体用于:将所述待处理文本中的每个实体词输入至所述实体词典中进行匹配,将所述实体词典中与所述每个实体词匹配的目标实体词和多个子实体词作为所述待处理文本对应的有效实体词;
所述信息优化模块具体用于:将所述情感词典中与所述目标实体词和多个子实体词对应的情感信息作为有效情感信息。
进一步的,所述实体对象识别模型包括:语言表示层、双向长短记忆网络层和条件随机场层;
其中,所述语言表示层,用于将输入的待处理文本转换成第一句子向量,以及将所述第一句子向量输入至所述双向长短记忆网络层;
所述双向长短记忆网络层,用于识别所述第一句子向量中的第一实体词向量以及所述第一实体词向量对应的概率值;
所述条件随机场层,用于根据所述第一实体词向量以及所述第一实体词向量对应的概率值,确定所述待处理文本中的实体词。
进一步的,所述情感信息提取模型包括:语言表示层、双向长短记忆网络层和条件随机场层;
其中,所述语言表示层,用于将输入的待处理文本转换成第二句子向量,以及将输入的实体词转换成第二实体词向量,以及将所述第二句子向量和所述第二实体词向量输入至所述双向长短记忆网络层;
所述双向长短记忆网络层,用于在所述第二句子向量中识别所述第二实体词向量对应的情感信息以及所述情感信息对应的概率值;
所述条件随机场层,用于根据所述情感信息对应的概率值,确定所述待处理文本中的实体词对应的情感信息。
本实施例中提供的各个模块的具体功能实现可参考上述有关方法实施例中的详细描述。
图9是本申请一示例性实施例示出的模型训练装置的结构示意图。
如图9所示,本实施例提供的模型训练装置包括:
样本确定模块901,用于确定实体识别训练集和情感信息训练集;所述实体识别训练集包括多个实体识别训练样本,每个实体识别训练样本包括一个文本以及所述一个文本的P个实体词,所述P为大于或等于1的整数;所述情感信息训练集包括多个情感信息训练样本,每个情感信息训练样本包括一个文本、所述一个文本的一个实体词以及所述一个实体词对应的情感信息;
模型训练模块902,用于将所述实体识别训练集输入至第一神经网络中进行训练,得到实体对象识别模型,以及,将所述情感信息训练集输入至第二神经网络进行训练,得到情感信息提取模型。
进一步的,所述P大于1,所述样本确定模块具体用于:
针对所述一个文本的P个实体词中的每个实体词分别构建一个情感信息训练样本,得到所述一个文本对应的P个情感信息训练样本。
进一步的,所述装置还包括:词典生成模块903,用于根据所述实体识别训练集生成实体词典,以及,根据所述情感信息训练集生成情感词典;所述实体词典包括至少一个实体的实体信息,所述实体信息包括目标实体词和多个子实体词,所述多个子实体词分别为表示同一个实体的不同实体名称,所述目标实体词为所述多个子实体词对应的统一名称,所述情感词典包括至少一个实体词对应的情感信息。
本实施例中提供的各个模块的具体功能实现可参考上述有关方法实施例中的详细描述。
图10为本申请实施例提供的计算机设备的硬件结构示意图。如图10所示,本实施例提供的计算机设备100包括:至少一个处理器1001和存储器1002。其中,处理器1001、存储器1002通过总线1003连接。
在具体实现过程中,至少一个处理器1001执行所述存储器1002存储的计算机执行指令,使得至少一个处理器1001执行上述方法实施例中的信息提取方法或模型训练方法。
处理器1001的具体实现过程可参见上述方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
在上述的图10所示的实施例中,应理解,处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application SpecificIntegrated Circuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component Interconnect,PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请的另一实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现上述方法实施例中的信息提取方法或模型训练方法。
本申请的另一实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本申请实施例第一方面所述的信息提取方法或模型训练方法。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种信息提取方法,其特征在于,包括:
获取待处理文本;
将所述待处理文本输入至实体对象识别模型,输出所述待处理文本中的N个实体词,所述N为正整数;
分别将所述N个实体词中的每个实体词和所述待处理文本作为输入量输入至情感信息提取模型,输出所述N个实体词一一对应的N个情感信息;
将所述待处理文本中的每个实体词输入至实体词典中进行匹配,将所述实体词典中与所述每个实体词匹配的目标实体词和多个子实体词作为所述待处理文本对应的有效实体词;所述实体词典包括至少一个实体的实体信息,所述实体信息包括目标实体词和多个子实体词,所述多个子实体词分别为表示同一个实体的不同实体名称,所述目标实体词为所述多个子实体词对应的统一名称;
将情感词典中与每个所述有效实体词对应的情感信息作为有效情感信息;所述情感词典包括至少一个实体词对应的情感信息。
2.根据权利要求1所述的方法,其特征在于,所述实体对象识别模型包括:语言表示层、双向长短记忆网络层和条件随机场层;
其中,所述语言表示层,用于将输入的待处理文本转换成第一句子向量,以及将所述第一句子向量输入至所述双向长短记忆网络层;
所述双向长短记忆网络层,用于识别所述第一句子向量中的第一实体词向量以及所述第一实体词向量对应的概率值;
所述条件随机场层,用于根据所述第一实体词向量以及所述第一实体词向量对应的概率值,确定所述待处理文本中的实体词。
3.根据权利要求1所述的方法,其特征在于,所述情感信息提取模型包括:语言表示层、双向长短记忆网络层和条件随机场层;
其中,所述语言表示层,用于将输入的待处理文本转换成第二句子向量,以及将输入的实体词转换成第二实体词向量,以及将所述第二句子向量和所述第二实体词向量输入至所述双向长短记忆网络层;
所述双向长短记忆网络层,用于在所述第二句子向量中识别所述第二实体词向量对应的情感信息以及所述情感信息对应的概率值;
所述条件随机场层,用于根据所述情感信息对应的概率值,确定所述待处理文本中的实体词对应的情感信息。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
确定实体识别训练集和情感信息训练集;所述实体识别训练集包括多个实体识别训练样本,每个实体识别训练样本包括一个文本以及所述一个文本的P个实体词,所述P为大于或等于1的整数;所述情感信息训练集包括多个情感信息训练样本,每个情感信息训练样本包括一个文本、所述一个文本的一个实体词以及所述一个实体词对应的情感信息;
将所述实体识别训练集输入至第一神经网络中进行训练,得到所述实体对象识别模型,以及,将所述情感信息训练集输入至第二神经网络进行训练,得到所述情感信息提取模型。
5.根据权利要求4所述的方法,其特征在于,所述P大于1,所述确定情感信息训练集,包括:
针对所述一个文本的P个实体词中的每个实体词分别构建一个情感信息训练样本,得到所述一个文本对应的P个情感信息训练样本。
6.根据权利要求4或5所述的方法,其特征在于,所述方法还包括:
根据所述实体识别训练集生成所述实体词典,以及,根据所述情感信息训练集生成所述情感词典。
7.一种信息提取装置,其特征在于,包括:
文本获取模块,用于获取待处理文本;
实体识别模块,用于将所述待处理文本输入至实体对象识别模型,输出所述待处理文本中的N个实体词,所述N为正整数;
信息提取模块,用于分别将所述N个实体词中的每个实体词和所述待处理文本作为输入量输入至情感信息提取模型,输出所述N个实体词一一对应的N个情感信息;
信息优化模块,用于将所述待处理文本中的每个实体词输入至实体词典中进行匹配,将所述实体词典中与所述每个实体词匹配的目标实体词和多个子实体词作为所述待处理文本对应的有效实体词;所述实体词典包括至少一个实体的实体信息,所述实体信息包括目标实体词和多个子实体词,所述多个子实体词分别为表示同一个实体的不同实体名称,所述目标实体词为所述多个子实体词对应的统一名称;
将情感词典中与每个所述有效实体词对应的情感信息作为有效情感信息;所述情感词典包括至少一个实体词对应的情感信息。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
样本确定模块,用于确定实体识别训练集和情感信息训练集;所述实体识别训练集包括多个实体识别训练样本,每个实体识别训练样本包括一个文本以及所述一个文本的P个实体词,所述P为大于或等于1的整数;所述情感信息训练集包括多个情感信息训练样本,每个情感信息训练样本包括一个文本、所述一个文本的一个实体词以及所述一个实体词对应的情感信息;
模型训练模块,用于将所述实体识别训练集输入至第一神经网络中进行训练,得到所述实体对象识别模型,以及,将所述情感信息训练集输入至第二神经网络进行训练,得到所述情感信息提取模型。
9.一种计算机设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1-6任一项所述的信息提取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-6任一项所述的信息提取方法。
CN202110753704.6A 2021-07-02 2021-07-02 信息提取方法、模型训练方法及相关设备 Active CN113343714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110753704.6A CN113343714B (zh) 2021-07-02 2021-07-02 信息提取方法、模型训练方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110753704.6A CN113343714B (zh) 2021-07-02 2021-07-02 信息提取方法、模型训练方法及相关设备

Publications (2)

Publication Number Publication Date
CN113343714A CN113343714A (zh) 2021-09-03
CN113343714B true CN113343714B (zh) 2022-06-07

Family

ID=77482455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110753704.6A Active CN113343714B (zh) 2021-07-02 2021-07-02 信息提取方法、模型训练方法及相关设备

Country Status (1)

Country Link
CN (1) CN113343714B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207855A (zh) * 2013-04-12 2013-07-17 广东工业大学 针对产品评论信息的细粒度情感分析系统及方法
CN103646088A (zh) * 2013-12-13 2014-03-19 合肥工业大学 基于CRFs和SVM的产品评论细粒度情感要素提取
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN106528528A (zh) * 2016-10-18 2017-03-22 哈尔滨工业大学深圳研究生院 文本情感分析的方法及装置
CN107102980A (zh) * 2016-02-19 2017-08-29 北京国双科技有限公司 情感信息的提取方法及装置
CN109299457A (zh) * 2018-09-06 2019-02-01 北京奇艺世纪科技有限公司 一种观点挖掘方法、装置及设备
CN111027322A (zh) * 2019-12-13 2020-04-17 新华智云科技有限公司 基于情感词典的财经新闻中细粒度实体的情感分析方法
CN111126035A (zh) * 2019-12-24 2020-05-08 深圳视界信息技术有限公司 一种电商评论分析场景下细粒度属性分析方法
CN111382569A (zh) * 2018-12-27 2020-07-07 深圳市优必选科技有限公司 对话语料中实体的识别方法、装置和计算机设备
CN111914561A (zh) * 2020-07-31 2020-11-10 中国建设银行股份有限公司 实体识别模型的训练、实体识别方法、装置及终端设备
CN112989808A (zh) * 2021-03-26 2021-06-18 清华大学 实体链接方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207855A (zh) * 2013-04-12 2013-07-17 广东工业大学 针对产品评论信息的细粒度情感分析系统及方法
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN103646088A (zh) * 2013-12-13 2014-03-19 合肥工业大学 基于CRFs和SVM的产品评论细粒度情感要素提取
CN107102980A (zh) * 2016-02-19 2017-08-29 北京国双科技有限公司 情感信息的提取方法及装置
CN106528528A (zh) * 2016-10-18 2017-03-22 哈尔滨工业大学深圳研究生院 文本情感分析的方法及装置
CN109299457A (zh) * 2018-09-06 2019-02-01 北京奇艺世纪科技有限公司 一种观点挖掘方法、装置及设备
CN111382569A (zh) * 2018-12-27 2020-07-07 深圳市优必选科技有限公司 对话语料中实体的识别方法、装置和计算机设备
CN111027322A (zh) * 2019-12-13 2020-04-17 新华智云科技有限公司 基于情感词典的财经新闻中细粒度实体的情感分析方法
CN111126035A (zh) * 2019-12-24 2020-05-08 深圳视界信息技术有限公司 一种电商评论分析场景下细粒度属性分析方法
CN111914561A (zh) * 2020-07-31 2020-11-10 中国建设银行股份有限公司 实体识别模型的训练、实体识别方法、装置及终端设备
CN112989808A (zh) * 2021-03-26 2021-06-18 清华大学 实体链接方法及装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
《基于CRF 和规则相结合的地理命名实体识别方法》;何炎祥;《计算机应用与软件》;20150131;第32卷(第1期);179-202 *
《基于深度学习的短文本情感倾向分析综述》;汤凌燕;《计算机科学与探索》;20210204;794-811 *
An Annotated Bangla Sentiment Analysis Corpus;Fuad Rahman;《International Conference on Bangla Speech and Language Processing (ICBSLP), 27-28 September 2019》;20200513;1-5 *
Sinhala Sentiment Analysis using Corpus based Sentiment Lexicon;P. D. T. Chathuranga;《2019 19th International Conference on Advances in ICT for Emerging Regions (ICTer)》;20200305;1-7 *
考虑语境的微博短文本挖掘:情感分析的方法;史伟;《计算机科学》;20210615;158-164 *

Also Published As

Publication number Publication date
CN113343714A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN107291840B (zh) 一种用户属性预测模型构建方法和装置
CN106682192A (zh) 一种基于搜索关键词训练回答意图分类模型的方法和装置
CN110580308B (zh) 信息审核方法及装置、电子设备、存储介质
CN111353037A (zh) 一种题目生成方法、装置以及计算机可读存储介质
CN111324698A (zh) 深度学习方法、评价观点提取方法、装置和系统
CN110377733A (zh) 一种基于文本的情绪识别方法、终端设备及介质
US20190147104A1 (en) Method and apparatus for constructing artificial intelligence application
CN111291551B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN114817538A (zh) 文本分类模型的训练方法、文本分类方法及相关设备
CN113781149A (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
CN109753658B (zh) 交互方法和装置
KR102410715B1 (ko) 머신 러닝 기반의 텍스트 데이터의 감성 분석 장치 및 방법
CN116579351B (zh) 一种用户评价信息的分析方法及装置
CN111680213A (zh) 信息推荐方法、数据处理方法及装置
CN113343714B (zh) 信息提取方法、模型训练方法及相关设备
CN112182126A (zh) 用于确定匹配度的模型训练方法、装置、电子设备及可读存储介质
CN116662495A (zh) 问答处理方法、训练问答处理模型的方法及装置
CN110705308A (zh) 语音信息的领域识别方法、装置、存储介质及电子设备
CN114265777B (zh) 应用程序的测试方法、装置、电子设备及存储介质
CN112241453B (zh) 情感属性确定方法、装置及电子设备
CN114707510A (zh) 资源推荐信息推送方法、装置、计算机设备及存储介质
CN112541357A (zh) 实体识别方法、装置及智能设备
CN111199421A (zh) 一种基于社交关系的用户推荐方法、装置及电子设备
CN110717101A (zh) 基于应用行为的用户分类方法、装置和电子设备
CN115249017A (zh) 文本标注方法、意图识别模型的训练方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant