CN111091007A - 一种基于舆情及企业画像识别多个企业之间关系的方法 - Google Patents
一种基于舆情及企业画像识别多个企业之间关系的方法 Download PDFInfo
- Publication number
- CN111091007A CN111091007A CN202010205306.6A CN202010205306A CN111091007A CN 111091007 A CN111091007 A CN 111091007A CN 202010205306 A CN202010205306 A CN 202010205306A CN 111091007 A CN111091007 A CN 111091007A
- Authority
- CN
- China
- Prior art keywords
- text
- enterprise
- entity
- entities
- business
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于舆情及企业画像识别多个企业之间关系的方法,其具体步骤如下,对非结构化文本数据进行命名实体提取,若文本中出现多个企业实体,则设法与结构化的企业画像数据对齐,同时得到目标企业在文本中位置信息和企业画像标签。针对对齐后的目标企业实体,同时计算实体所在文本上下文向量、实体词词向量、位置向量与企业标签向量(如:所属行业、规模、成立时长、经营所在地等)。利用双向GRU循环神经网络结合注意力模型进行企业关系(如:竞争、合作、上下游等关系)分类模型训练。将训练后的模型用于计算两个出现在同一舆情文本中企业的关系判别。
Description
技术领域
本发明涉及机器学习的相关技术,尤其涉及一种基于舆情及企业画像识别多个企业之间关系的方法。
背景技术
互联网上充斥着各种企业舆情信息,利用机器学习算法,我们可以将非结构化的文本数据转化为结构化数据,如识别企业名称并将其关联到结构化的企业实体库中,并进一步得到不同实体之间的关系,如:投资关系、竞争关系、上下游关系等。
目前,实体关系分类方法主要基于纯文本的分析得到的实体关系分类。但在企业舆情领域,舆情信息存在来源不可控、描述多样性等问题,导致识别效果较差,关系无法用于真实生成环境。
本申请通过结合企业标签数据、文本位置信息等方式,提出了一种基于舆情及企业画像识别多个企业之间关系的方法,可提升企业关系识别的效果。
发明内容
本发明针对现有技术中的不足,提供了一种基于舆情及企业画像识别多个企业之间关系的方法,可有效提高企业实体间关系分类的准确性。
为了解决上述技术问题,本发明通过下述技术方案得以解决:
对输入的舆情文本进行预处理,通过利用已经训练好的企业命名实体抽取模型识别出文本中的企业实体,找到文本中的企业实体的位置。针对存在多个企业实体的文本,搜索企业别名库,将这些实体与企业别名库中的结构化企业实体进行对齐。最终得到该文本中企业实体名称、位置以及标签,其中每一个都代表一个标签维度里的标签值。同时根据输入文本构建文本序列,其中是普通词汇,是实体名词。
其中构建句向量的句向量结构说明可参见附图2。
最终形成包含词向量、位置向量、实体标签向量的句向量作为关系分类模型的输入。
利用深度学习计算框架(如tensorflow)构建双向GRU循环神经网络,作为关系分类模型神经网络计算框架,其中该神经网络包括:输入层、GRU层、输出层:
GRU层将句向量输入到该层通过双向GRU的计算得到特征向量,作为输出层的输入向量;
输出层将GRU层计算得到的隐状态向量通过softmax分类器的非线性变化进行分类,得到最终关系分类结果;
将标注好两个实体位置以及实体之间关系的文本作为样本,并按7:2:1分成训练集、验证集、测试集。并将训练接样本进行数据预处理形成句向量,再输入到准备好的神经网络计算框架中,进行训练,调参,最终形成预测模型。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1 为本发明实施例公开的基于舆情及企业画像识别多个企业之间关系的方法实施步骤流程图。
图2 为本发明实施例公开的方法中构建句向量的句向量结构说明示例图。
图3 为本发明实施例公开的方法中对文本进行命名实体提取并对齐后样本输入格式说明示例图,其中包含了两个实体、实体关系、上下文等信息。
图4 为本发明实施例公开的方法中对训练集文本中的每个词进行词向量化后,形成词向量的部分截图。
图5为本发明实施例公开的方法中对训练集文本中的每个词距离文本中实体的位置量化后,形成不同位置向量的部分截图。
图6为本发明实施例公开的方法中对实体标签进行向量化后,形成实体标签向量的部分截图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面将结合本申请,对整个技术方案实施步骤进行清晰完整的解释,参考以下文本,具体步骤如下:
例句:有数金服成立于2015年4月,是一家大数据征信公司,已完成华睿投资领投的数千万A轮融资。
a、构建好企业的别命库和标签库,如下。
别名库:
企业名称 | 别名 |
杭州有数金融信息服务有限公司 | 杭州有数 |
杭州有数金融信息服务有限公司 | 有数金服 |
浙江华睿投资控股有限公司 | 华睿投资 |
... | ... |
标签库:
企业名称 | 成立时长 | 注册省份 | 注册资本 | 行业 | ... |
杭州有数金融信息服务有限公司 | 三到五年 | 浙江省 | 一千万到三千万之间 | 企业征信 | ... |
浙江华睿控股有限公司 | 十五年以上 | 浙江省 | 五千万到一亿之间 | 投资服务 | ... |
... | ... | ... | ... | ... | ... |
b、收集包含多个企业实体的非结构化文本样本,并标注关系分类结果,如:华睿投资->有数金服:投资关系。
c、对输入的文本样本进行预处理,通过利用已经训练好的企业命名实体抽取模型识别出文本中的企业实体,找到文本中的企业实体,如:“有数金服”、“华睿投资”。
针对文本中存在多个企业实体的样本,将多个实体通过搜索企业别名库,与已经提前准备好的结构化企业实体进行对齐。最终得到该文本中企业实体以及标签,如:有数金服:{三到五年,浙江省,一千万到三千万,企业征信,...}和华睿投资:{十五年以上,浙江省,五千万到一亿之,投资服务,...}。同时根据文本构建文本序列D={有数金服,成,立,于,...,已,完,成,华睿投资,领,投,的,...A,轮,融,资,。}。如下附图3。
本发明实施例公开的方法中对训练集文本中的每个词进行词向量化后,形成词向量,词向量的部分截图如附图4所示。
本发明实施例公开的方法中对训练集文本中的每个词距离文本中实体的位置量化后,形成不同位置向量的部分截图如附图5所示。
本发明实施例公开的方法中对实体标签进行向量化后,形成实体标签向量的部分截图如附图6所示。
其中本发明实施例公开的方法中构建句向量的句向量结构如附图2所示。
最后将标注好的标签通过用one-hot的方式表示,方便softmax激活函数进行分类,如:投资关系表达为{0,0,1,0,0}。
通过以上特征工程的过程对大量样本进行处理,得到训练样本数据,并对样本数据进行分组,分为训练集、验证集、测试集。
e、利用深度学习计算框架tensorflow构建双向GRU循环神经网络,其中包括:输入层、GRU层、输出层。
输入层是将得到的多个向量输入到搭建好的网络中,并将词向量、位置向量实体标签向量进行拼接,形成句向量;并将句向量作为GRU层的输入;
GRU层将句向量通过双向GRU的计算得到隐含特征向量,作为输出层的输入向量;
输出层将GRU层计算得到的隐状态向量通过softmax分类器的非线性变化进行分类,得到最终关系分类结果。
f、将处理好的样本通过构建好的神经网络进行训练,调参,最终形成预测模型。
g、用训练好的预测模型对其他文本进行关系分类识别。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
总之,以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所作的均等变化与修饰,皆应属本发明专利的涵盖范围。
Claims (3)
1.一种基于舆情及企业画像识别多个企业之间关系的方法,其特征在于,包括:
S1、同时识别非结构化文本中的企业实体名词与结构化企业实体标签;
S2、计算企业实体所在文本字符词向量、位置向量与企业标签向量,并连接形成句向量;
S3、利用深度神经网络,综合步骤 S2 中的所述句向量,识别企业间特定关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010205306.6A CN111091007A (zh) | 2020-03-23 | 2020-03-23 | 一种基于舆情及企业画像识别多个企业之间关系的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010205306.6A CN111091007A (zh) | 2020-03-23 | 2020-03-23 | 一种基于舆情及企业画像识别多个企业之间关系的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111091007A true CN111091007A (zh) | 2020-05-01 |
Family
ID=70400595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010205306.6A Pending CN111091007A (zh) | 2020-03-23 | 2020-03-23 | 一种基于舆情及企业画像识别多个企业之间关系的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111091007A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182246A (zh) * | 2020-09-28 | 2021-01-05 | 上海市浦东新区行政服务中心(上海市浦东新区市民中心) | 通过大数据分析建立企业画像的方法、系统、介质及应用 |
CN112418320A (zh) * | 2020-11-24 | 2021-02-26 | 杭州未名信科科技有限公司 | 一种企业关联关系识别方法、装置及存储介质 |
CN112632975A (zh) * | 2020-12-29 | 2021-04-09 | 北京明略软件系统有限公司 | 上下游关系的抽取方法、装置、电子设备及存储介质 |
CN112989165A (zh) * | 2021-03-26 | 2021-06-18 | 杭州有数金融信息服务有限公司 | 一种计算舆情实体关联度的方法 |
CN114153803A (zh) * | 2021-12-03 | 2022-03-08 | 西安交通大学 | 一种基于预训练模型的政务文件归属省份分类方法 |
CN116092493A (zh) * | 2023-04-07 | 2023-05-09 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354710A (zh) * | 2016-08-18 | 2017-01-25 | 清华大学 | 一种神经网络关系抽取方法 |
CN107220237A (zh) * | 2017-05-24 | 2017-09-29 | 南京大学 | 一种基于卷积神经网络的企业实体关系抽取的方法 |
CN108829722A (zh) * | 2018-05-08 | 2018-11-16 | 国家计算机网络与信息安全管理中心 | 一种远程监督的Dual-Attention关系分类方法及系统 |
CN109523153A (zh) * | 2018-11-12 | 2019-03-26 | 平安科技(深圳)有限公司 | 非法集资企业的获取方法、装置、计算机设备和存储介质 |
CN110502749A (zh) * | 2019-08-02 | 2019-11-26 | 中国电子科技集团公司第二十八研究所 | 一种基于双层注意力机制与双向gru的文本关系抽取方法 |
-
2020
- 2020-03-23 CN CN202010205306.6A patent/CN111091007A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106354710A (zh) * | 2016-08-18 | 2017-01-25 | 清华大学 | 一种神经网络关系抽取方法 |
CN107220237A (zh) * | 2017-05-24 | 2017-09-29 | 南京大学 | 一种基于卷积神经网络的企业实体关系抽取的方法 |
CN108829722A (zh) * | 2018-05-08 | 2018-11-16 | 国家计算机网络与信息安全管理中心 | 一种远程监督的Dual-Attention关系分类方法及系统 |
CN109523153A (zh) * | 2018-11-12 | 2019-03-26 | 平安科技(深圳)有限公司 | 非法集资企业的获取方法、装置、计算机设备和存储介质 |
CN110502749A (zh) * | 2019-08-02 | 2019-11-26 | 中国电子科技集团公司第二十八研究所 | 一种基于双层注意力机制与双向gru的文本关系抽取方法 |
Non-Patent Citations (1)
Title |
---|
达微: "最全知识图谱介绍:关键技术、开放数据集、应用案例汇总", 《HTTPS://WWW.JIANSHU.COM/P/995CC0B8EBE5》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182246A (zh) * | 2020-09-28 | 2021-01-05 | 上海市浦东新区行政服务中心(上海市浦东新区市民中心) | 通过大数据分析建立企业画像的方法、系统、介质及应用 |
CN112418320A (zh) * | 2020-11-24 | 2021-02-26 | 杭州未名信科科技有限公司 | 一种企业关联关系识别方法、装置及存储介质 |
CN112418320B (zh) * | 2020-11-24 | 2024-01-19 | 杭州未名信科科技有限公司 | 一种企业关联关系识别方法、装置及存储介质 |
CN112632975A (zh) * | 2020-12-29 | 2021-04-09 | 北京明略软件系统有限公司 | 上下游关系的抽取方法、装置、电子设备及存储介质 |
CN112632975B (zh) * | 2020-12-29 | 2024-06-07 | 北京明略软件系统有限公司 | 上下游关系的抽取方法、装置、电子设备及存储介质 |
CN112989165A (zh) * | 2021-03-26 | 2021-06-18 | 杭州有数金融信息服务有限公司 | 一种计算舆情实体关联度的方法 |
CN112989165B (zh) * | 2021-03-26 | 2022-07-01 | 浙江有数数智科技有限公司 | 一种计算舆情实体关联度的方法 |
CN114153803A (zh) * | 2021-12-03 | 2022-03-08 | 西安交通大学 | 一种基于预训练模型的政务文件归属省份分类方法 |
CN114153803B (zh) * | 2021-12-03 | 2024-07-19 | 西安交通大学 | 一种基于预训练模型的政务文件归属省份分类方法 |
CN116092493A (zh) * | 2023-04-07 | 2023-05-09 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和计算机可读存储介质 |
CN116092493B (zh) * | 2023-04-07 | 2023-08-25 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111091007A (zh) | 一种基于舆情及企业画像识别多个企业之间关系的方法 | |
CN108446271B (zh) | 基于汉字部件特征的卷积神经网络的文本情感分析方法 | |
CN110929034A (zh) | 一种基于改进lstm的商品评论细粒度情感分类方法 | |
CN107122416A (zh) | 一种中文事件抽取方法 | |
CN110502626B (zh) | 一种基于卷积神经网络的方面级情感分析方法 | |
CN113051916B (zh) | 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法 | |
CN112434535B (zh) | 基于多模型的要素抽取方法、装置、设备及存储介质 | |
CN107729309A (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN112070138B (zh) | 多标签混合分类模型的构建方法、新闻分类方法及系统 | |
CN108536756A (zh) | 基于双语信息的情绪分类方法及系统 | |
CN109492105B (zh) | 一种基于多特征集成学习的文本情感分类方法 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN111462752A (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN114942991B (zh) | 一种基于隐喻识别的情感分类模型构建方法 | |
CN114170411A (zh) | 一种融合多尺度信息的图片情感识别方法 | |
CN113435192A (zh) | 一种基于改变神经网络通道基数的中文文本情感分析方法 | |
CN112905736A (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN115470354A (zh) | 基于多标签分类识别嵌套和重叠风险点的方法及系统 | |
CN115481635A (zh) | 一种地址要素解析方法和系统 | |
CN112101029A (zh) | 一种基于bert模型的高校导师推荐管理方法 | |
CN113312918B (zh) | 融合部首向量的分词和胶囊网络法律命名实体识别方法 | |
CN114416991A (zh) | 一种基于prompt的文本情感原因分析方法和系统 | |
CN111859925A (zh) | 一种基于概率情感词典的情感分析系统及方法 | |
Jayashree et al. | Sentimental analysis on voice based reviews using fuzzy logic | |
Rahman et al. | Classification of Book Review Sentiment in Bangla Language Using NLP, Machine Learning and LSTM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200501 |