CN111091007A - 一种基于舆情及企业画像识别多个企业之间关系的方法 - Google Patents

一种基于舆情及企业画像识别多个企业之间关系的方法 Download PDF

Info

Publication number
CN111091007A
CN111091007A CN202010205306.6A CN202010205306A CN111091007A CN 111091007 A CN111091007 A CN 111091007A CN 202010205306 A CN202010205306 A CN 202010205306A CN 111091007 A CN111091007 A CN 111091007A
Authority
CN
China
Prior art keywords
text
enterprise
entity
entities
business
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010205306.6A
Other languages
English (en)
Inventor
梁协君
蒋涛
汤斯亮
蒋建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Youshu Finance Information Services Co ltd
Original Assignee
Hangzhou Youshu Finance Information Services Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Youshu Finance Information Services Co ltd filed Critical Hangzhou Youshu Finance Information Services Co ltd
Priority to CN202010205306.6A priority Critical patent/CN111091007A/zh
Publication of CN111091007A publication Critical patent/CN111091007A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于舆情及企业画像识别多个企业之间关系的方法,其具体步骤如下,对非结构化文本数据进行命名实体提取,若文本中出现多个企业实体,则设法与结构化的企业画像数据对齐,同时得到目标企业在文本中位置信息和企业画像标签。针对对齐后的目标企业实体,同时计算实体所在文本上下文向量、实体词词向量、位置向量与企业标签向量(如:所属行业、规模、成立时长、经营所在地等)。利用双向GRU循环神经网络结合注意力模型进行企业关系(如:竞争、合作、上下游等关系)分类模型训练。将训练后的模型用于计算两个出现在同一舆情文本中企业的关系判别。

Description

一种基于舆情及企业画像识别多个企业之间关系的方法
技术领域
本发明涉及机器学习的相关技术,尤其涉及一种基于舆情及企业画像识别多个企业之间关系的方法。
背景技术
互联网上充斥着各种企业舆情信息,利用机器学习算法,我们可以将非结构化的文本数据转化为结构化数据,如识别企业名称并将其关联到结构化的企业实体库中,并进一步得到不同实体之间的关系,如:投资关系、竞争关系、上下游关系等。
目前,实体关系分类方法主要基于纯文本的分析得到的实体关系分类。但在企业舆情领域,舆情信息存在来源不可控、描述多样性等问题,导致识别效果较差,关系无法用于真实生成环境。
本申请通过结合企业标签数据、文本位置信息等方式,提出了一种基于舆情及企业画像识别多个企业之间关系的方法,可提升企业关系识别的效果。
发明内容
本发明针对现有技术中的不足,提供了一种基于舆情及企业画像识别多个企业之间关系的方法,可有效提高企业实体间关系分类的准确性。
为了解决上述技术问题,本发明通过下述技术方案得以解决:
对输入的舆情文本进行预处理,通过利用已经训练好的企业命名实体抽取模型识别出文本中的企业实体,找到文本中的企业实体的位置。针对存在多个企业实体的文本,搜索企业别名库,将这些实体与企业别名库中的结构化企业实体进行对齐。最终得到该文本中企业实体名称、位置以及标签
Figure 645845DEST_PATH_IMAGE002
,其中每一个
Figure 858651DEST_PATH_IMAGE004
都代表一个标签维度里的标签值。同时根据输入文本构建文本序列
Figure 439805DEST_PATH_IMAGE006
,其中
Figure 116250DEST_PATH_IMAGE008
是普通词汇,
Figure 782854DEST_PATH_IMAGE010
是实体名词。
对文本序列中每个字符相对实体
Figure 596090DEST_PATH_IMAGE012
计算相对位置步长得到位置序列
Figure 969433DEST_PATH_IMAGE014
,其中的每一个
Figure 678763DEST_PATH_IMAGE016
对应一个文本中的一个字符相对实体
Figure 728538DEST_PATH_IMAGE018
的相隔字符个数,字符在实体左边为负值,右边为正值。
任意选择文本D中的一对实体,对文本序列D(包含实体)、两个实体的位置序列
Figure 814306DEST_PATH_IMAGE020
Figure 104473DEST_PATH_IMAGE022
、实体标签
Figure 312600DEST_PATH_IMAGE024
Figure 688218DEST_PATH_IMAGE026
,利用词向量模型训练工具变成词向量
Figure 312097DEST_PATH_IMAGE028
、位置向量
Figure 722350DEST_PATH_IMAGE030
Figure 773483DEST_PATH_IMAGE032
、实体标签向量
Figure 839659DEST_PATH_IMAGE034
Figure 795458DEST_PATH_IMAGE036
按照如下方式组合S2.2中的向量得到
Figure 997900DEST_PATH_IMAGE038
其中构建句向量的句向量结构说明可参见附图2。
最终形成包含词向量、位置向量、实体标签向量的句向量作为关系分类模型的输入。
利用深度学习计算框架(如tensorflow)构建双向GRU循环神经网络,作为关系分类模型神经网络计算框架,其中该神经网络包括:输入层、GRU层、输出层:
输入层是上文中得到的向量输入到搭建好的网络中,并将词向量
Figure 219934DEST_PATH_IMAGE028
与两个位置向量
Figure 570144DEST_PATH_IMAGE030
Figure 801405DEST_PATH_IMAGE032
以及两个实体标签向量
Figure 920671DEST_PATH_IMAGE024
Figure 48027DEST_PATH_IMAGE026
进行拼接,形成句向量
Figure 213429DEST_PATH_IMAGE038
;并重新生成好的句向量
Figure DEST_PATH_IMAGE039
作为GRU层的输入;
GRU层将句向量输入到该层通过双向GRU的计算得到特征向量,作为输出层的输入向量;
输出层将GRU层计算得到的隐状态向量通过softmax分类器的非线性变化进行分类,得到最终关系分类结果;
将标注好两个实体位置以及实体之间关系的文本作为样本,并按7:2:1分成训练集、验证集、测试集。并将训练接样本进行数据预处理形成句向量,再输入到准备好的神经网络计算框架中,进行训练,调参,最终形成预测模型。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1 为本发明实施例公开的基于舆情及企业画像识别多个企业之间关系的方法实施步骤流程图。
图2 为本发明实施例公开的方法中构建句向量的句向量结构说明示例图。
图3 为本发明实施例公开的方法中对文本进行命名实体提取并对齐后样本输入格式说明示例图,其中包含了两个实体、实体关系、上下文等信息。
图4 为本发明实施例公开的方法中对训练集文本中的每个词进行词向量化后,形成词向量的部分截图。
图5为本发明实施例公开的方法中对训练集文本中的每个词距离文本中实体的位置量化后,形成不同位置向量的部分截图。
图6为本发明实施例公开的方法中对实体标签进行向量化后,形成实体标签向量的部分截图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面将结合本申请,对整个技术方案实施步骤进行清晰完整的解释,参考以下文本,具体步骤如下:
例句:有数金服成立于2015年4月,是一家大数据征信公司,已完成华睿投资领投的数千万A轮融资。
a、构建好企业的别命库和标签库,如下。
别名库:
企业名称 别名
杭州有数金融信息服务有限公司 杭州有数
杭州有数金融信息服务有限公司 有数金服
浙江华睿投资控股有限公司 华睿投资
... ...
标签库:
企业名称 成立时长 注册省份 注册资本 行业 ...
杭州有数金融信息服务有限公司 三到五年 浙江省 一千万到三千万之间 企业征信 ...
浙江华睿控股有限公司 十五年以上 浙江省 五千万到一亿之间 投资服务 ...
... ... ... ... ... ...
b、收集包含多个企业实体的非结构化文本样本,并标注关系分类结果,如:华睿投资->有数金服:投资关系。
c、对输入的文本样本进行预处理,通过利用已经训练好的企业命名实体抽取模型识别出文本中的企业实体,找到文本中的企业实体,如:“有数金服”、“华睿投资”。
针对文本中存在多个企业实体的样本,将多个实体通过搜索企业别名库,与已经提前准备好的结构化企业实体进行对齐。最终得到该文本中企业实体以及标签,如:有数金服:{三到五年,浙江省,一千万到三千万,企业征信,...}和华睿投资:{十五年以上,浙江省,五千万到一亿之,投资服务,...}。同时根据文本构建文本序列D={有数金服,成,立,于,...,已,完,成,华睿投资,领,投,的,...A,轮,融,资,。}。如下附图3。
d、对文本序列中每个字符相对实体“有数金服”计算相对位置步长得到序列
Figure DEST_PATH_IMAGE041
,对文本序列中每个字符相对实体“华睿投资”计算相对位置步长得到序列
Figure DEST_PATH_IMAGE043
,字符在实体左边为负值,右边为正值。
对文本序列
Figure DEST_PATH_IMAGE045
、位置序列
Figure 730605DEST_PATH_IMAGE047
Figure 969956DEST_PATH_IMAGE049
以及实体标签
Figure 471476DEST_PATH_IMAGE051
Figure 796278DEST_PATH_IMAGE053
利用tensorflow深度学习计算框架的tf.nn.embedding_lookup作为词向量模型工具生成词向量
Figure DEST_PATH_IMAGE054
、位置向量
Figure DEST_PATH_IMAGE056
Figure DEST_PATH_IMAGE058
、2个实体标签向量
Figure DEST_PATH_IMAGE060
Figure 117144DEST_PATH_IMAGE062
本发明实施例公开的方法中对训练集文本中的每个词进行词向量化后,形成词向量,词向量的部分截图如附图4所示。
本发明实施例公开的方法中对训练集文本中的每个词距离文本中实体的位置量化后,形成不同位置向量的部分截图如附图5所示。
本发明实施例公开的方法中对实体标签进行向量化后,形成实体标签向量的部分截图如附图6所示。
对生成好的向量进行如下拼接。形成包含词向量、位置向量、实体标签向量的句向量
Figure 273319DEST_PATH_IMAGE039
作为深度学习网络的输入。
其中本发明实施例公开的方法中构建句向量的句向量结构如附图2所示。
最后将标注好的标签通过用one-hot的方式表示,方便softmax激活函数进行分类,如:投资关系表达为{0,0,1,0,0}。
通过以上特征工程的过程对大量样本进行处理,得到训练样本数据,并对样本数据进行分组,分为训练集、验证集、测试集。
e、利用深度学习计算框架tensorflow构建双向GRU循环神经网络,其中包括:输入层、GRU层、输出层。
输入层是将得到的多个向量输入到搭建好的网络中,并将词向量、位置向量实体标签向量进行拼接,形成句向量;并将句向量作为GRU层的输入;
GRU层将句向量通过双向GRU的计算得到隐含特征向量,作为输出层的输入向量;
输出层将GRU层计算得到的隐状态向量通过softmax分类器的非线性变化进行分类,得到最终关系分类结果。
f、将处理好的样本通过构建好的神经网络进行训练,调参,最终形成预测模型。
g、用训练好的预测模型对其他文本进行关系分类识别。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
总之,以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所作的均等变化与修饰,皆应属本发明专利的涵盖范围。

Claims (3)

1.一种基于舆情及企业画像识别多个企业之间关系的方法,其特征在于,包括:
S1、同时识别非结构化文本中的企业实体名词与结构化企业实体标签;
S2、计算企业实体所在文本字符词向量、位置向量与企业标签向量,并连接形成句向量;
S3、利用深度神经网络,综合步骤 S2 中的所述句向量,识别企业间特定关系。
2.根据权利要求1所述的基于舆情及企业画像识别多个企业之间关系的方法,其特征在于:
在步骤S1中,对输入的文本进行预处理,通过利用已经训练好的企业命名实体抽取模型识别出文本中的企业实体,找到文本中的企业实体的位置,针对存在多个企业实体的文本,搜索企业别名库,将这些实体与企业别名库中的结构化企业实体进行对齐,最终得到该文本中企业实体名称、位置以及标签,同时根据输入文本构建文本序列
Figure 515286DEST_PATH_IMAGE002
,其中
Figure 469246DEST_PATH_IMAGE004
是普通词汇,
Figure 62032DEST_PATH_IMAGE006
是实体名词。
3.根据权利要求2所述的基于舆情及企业画像识别多个企业之间关系的方法,其特征在于,在步骤S2中,具体为:
S2.1、对文本序列中每个字符相对实体
Figure 863766DEST_PATH_IMAGE008
计算相对位置步长得到位置序列;
S2.2、任意选择文本D中的一对实体,对文本序列D、两个实体的位置序列
Figure 222679DEST_PATH_IMAGE010
Figure 654928DEST_PATH_IMAGE012
、实体标签
Figure 531748DEST_PATH_IMAGE014
Figure 806347DEST_PATH_IMAGE016
,利用Word2Vec变成词向量
Figure 350592DEST_PATH_IMAGE018
、位置向量
Figure 484902DEST_PATH_IMAGE020
Figure 114597DEST_PATH_IMAGE022
、实体标签向量
Figure 54871DEST_PATH_IMAGE024
Figure 919535DEST_PATH_IMAGE026
S2.3、通过对文本序列中每一个字符或实体,将S2.2中得到的向量进行连接,最终得到合并后的文本序列向量
Figure 959166DEST_PATH_IMAGE028
作为深度学习网络的输入。
CN202010205306.6A 2020-03-23 2020-03-23 一种基于舆情及企业画像识别多个企业之间关系的方法 Pending CN111091007A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010205306.6A CN111091007A (zh) 2020-03-23 2020-03-23 一种基于舆情及企业画像识别多个企业之间关系的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010205306.6A CN111091007A (zh) 2020-03-23 2020-03-23 一种基于舆情及企业画像识别多个企业之间关系的方法

Publications (1)

Publication Number Publication Date
CN111091007A true CN111091007A (zh) 2020-05-01

Family

ID=70400595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010205306.6A Pending CN111091007A (zh) 2020-03-23 2020-03-23 一种基于舆情及企业画像识别多个企业之间关系的方法

Country Status (1)

Country Link
CN (1) CN111091007A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182246A (zh) * 2020-09-28 2021-01-05 上海市浦东新区行政服务中心(上海市浦东新区市民中心) 通过大数据分析建立企业画像的方法、系统、介质及应用
CN112418320A (zh) * 2020-11-24 2021-02-26 杭州未名信科科技有限公司 一种企业关联关系识别方法、装置及存储介质
CN112632975A (zh) * 2020-12-29 2021-04-09 北京明略软件系统有限公司 上下游关系的抽取方法、装置、电子设备及存储介质
CN112989165A (zh) * 2021-03-26 2021-06-18 杭州有数金融信息服务有限公司 一种计算舆情实体关联度的方法
CN114153803A (zh) * 2021-12-03 2022-03-08 西安交通大学 一种基于预训练模型的政务文件归属省份分类方法
CN116092493A (zh) * 2023-04-07 2023-05-09 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354710A (zh) * 2016-08-18 2017-01-25 清华大学 一种神经网络关系抽取方法
CN107220237A (zh) * 2017-05-24 2017-09-29 南京大学 一种基于卷积神经网络的企业实体关系抽取的方法
CN108829722A (zh) * 2018-05-08 2018-11-16 国家计算机网络与信息安全管理中心 一种远程监督的Dual-Attention关系分类方法及系统
CN109523153A (zh) * 2018-11-12 2019-03-26 平安科技(深圳)有限公司 非法集资企业的获取方法、装置、计算机设备和存储介质
CN110502749A (zh) * 2019-08-02 2019-11-26 中国电子科技集团公司第二十八研究所 一种基于双层注意力机制与双向gru的文本关系抽取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354710A (zh) * 2016-08-18 2017-01-25 清华大学 一种神经网络关系抽取方法
CN107220237A (zh) * 2017-05-24 2017-09-29 南京大学 一种基于卷积神经网络的企业实体关系抽取的方法
CN108829722A (zh) * 2018-05-08 2018-11-16 国家计算机网络与信息安全管理中心 一种远程监督的Dual-Attention关系分类方法及系统
CN109523153A (zh) * 2018-11-12 2019-03-26 平安科技(深圳)有限公司 非法集资企业的获取方法、装置、计算机设备和存储介质
CN110502749A (zh) * 2019-08-02 2019-11-26 中国电子科技集团公司第二十八研究所 一种基于双层注意力机制与双向gru的文本关系抽取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
达微: "最全知识图谱介绍:关键技术、开放数据集、应用案例汇总", 《HTTPS://WWW.JIANSHU.COM/P/995CC0B8EBE5》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182246A (zh) * 2020-09-28 2021-01-05 上海市浦东新区行政服务中心(上海市浦东新区市民中心) 通过大数据分析建立企业画像的方法、系统、介质及应用
CN112418320A (zh) * 2020-11-24 2021-02-26 杭州未名信科科技有限公司 一种企业关联关系识别方法、装置及存储介质
CN112418320B (zh) * 2020-11-24 2024-01-19 杭州未名信科科技有限公司 一种企业关联关系识别方法、装置及存储介质
CN112632975A (zh) * 2020-12-29 2021-04-09 北京明略软件系统有限公司 上下游关系的抽取方法、装置、电子设备及存储介质
CN112632975B (zh) * 2020-12-29 2024-06-07 北京明略软件系统有限公司 上下游关系的抽取方法、装置、电子设备及存储介质
CN112989165A (zh) * 2021-03-26 2021-06-18 杭州有数金融信息服务有限公司 一种计算舆情实体关联度的方法
CN112989165B (zh) * 2021-03-26 2022-07-01 浙江有数数智科技有限公司 一种计算舆情实体关联度的方法
CN114153803A (zh) * 2021-12-03 2022-03-08 西安交通大学 一种基于预训练模型的政务文件归属省份分类方法
CN114153803B (zh) * 2021-12-03 2024-07-19 西安交通大学 一种基于预训练模型的政务文件归属省份分类方法
CN116092493A (zh) * 2023-04-07 2023-05-09 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质
CN116092493B (zh) * 2023-04-07 2023-08-25 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN111091007A (zh) 一种基于舆情及企业画像识别多个企业之间关系的方法
CN108446271B (zh) 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
CN107122416A (zh) 一种中文事件抽取方法
CN110502626B (zh) 一种基于卷积神经网络的方面级情感分析方法
CN113051916B (zh) 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法
CN112434535B (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN107729309A (zh) 一种基于深度学习的中文语义分析的方法及装置
CN112070138B (zh) 多标签混合分类模型的构建方法、新闻分类方法及系统
CN108536756A (zh) 基于双语信息的情绪分类方法及系统
CN109492105B (zh) 一种基于多特征集成学习的文本情感分类方法
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN114942991B (zh) 一种基于隐喻识别的情感分类模型构建方法
CN114170411A (zh) 一种融合多尺度信息的图片情感识别方法
CN113435192A (zh) 一种基于改变神经网络通道基数的中文文本情感分析方法
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
CN115470354A (zh) 基于多标签分类识别嵌套和重叠风险点的方法及系统
CN115481635A (zh) 一种地址要素解析方法和系统
CN112101029A (zh) 一种基于bert模型的高校导师推荐管理方法
CN113312918B (zh) 融合部首向量的分词和胶囊网络法律命名实体识别方法
CN114416991A (zh) 一种基于prompt的文本情感原因分析方法和系统
CN111859925A (zh) 一种基于概率情感词典的情感分析系统及方法
Jayashree et al. Sentimental analysis on voice based reviews using fuzzy logic
Rahman et al. Classification of Book Review Sentiment in Bangla Language Using NLP, Machine Learning and LSTM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200501