CN113032520A - 信息分析方法及装置、电子设备和计算机可读存储介质 - Google Patents
信息分析方法及装置、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN113032520A CN113032520A CN202110216017.0A CN202110216017A CN113032520A CN 113032520 A CN113032520 A CN 113032520A CN 202110216017 A CN202110216017 A CN 202110216017A CN 113032520 A CN113032520 A CN 113032520A
- Authority
- CN
- China
- Prior art keywords
- question
- event
- text
- analyzed
- argument
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 236
- 238000012549 training Methods 0.000 claims abstract description 108
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000004044 response Effects 0.000 claims abstract description 12
- 238000002372 labelling Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 18
- 238000004891 communication Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 241000272194 Ciconiiformes Species 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 235000015895 biscuits Nutrition 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000003205 fragrance Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 235000014594 pastries Nutrition 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 230000035943 smell Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Economics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本公开的实施例提供了信息分析方法及装置、电子设备和计算机可读存储介质。该方法包括:获取待分析文本;利用分析模型,预测所述待分析文本针对事件问题的答案,得到第一预测结果;其中,所述分析模型预先基于多个训练语料训练得到,所述训练语料标注有至少一个问题标注信息和针对所述至少一个问题中各问题的答案标注信息,所述至少一个问题包括以下任意一项或多项:事件问题,至少一个论元角色问题;响应于所述第一预测结果包括所述事件问题的答案,利用所述分析模型预测所述事件问题的答案对应的各论元角色问题的答案,得到第二预测结果;基于所述第一预测结果和所述第二预测结果,确定所述待分析文本对应的事件信息和论元信息。本公开技术方案能够提高从舆情新闻中提取事件信息与论元信息的准确性。
Description
技术领域
本公开涉及数据处理技术领域,特别涉及信息分析方法及装置、电子设备和计算机可读存储介质。
背景技术
舆情是指在一定的社会空间内,围绕社会事件的发生、发展和变化,作为主体的民众对作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。
随着互联网技术的快速发展,网络的开发性和灵活性让其成为反映社会舆情的主要载体之一。通过对企业的舆情新闻进行信息提取和结构化存储,可以让用户方便的获取到其关注企业的全面舆情信息,并且有利于对企业的舆情信息进行析,准确判断企业的发展趋势,还可以进一步生成舆情报告和各种统计报表,以便于决策。
现有技术对企业的舆情新闻进行信息提取时,采用基于事件与论元的流水线(pipeline)方式来提取舆情新闻中的事件与论元值,先识别事件(如收购),识别出事件再抽取相应事件的论元值(如时间、收购物)。在实现本公开的过程中,本发明人通过研究发现,上述基于事件与论元的流水线方式来提取舆情新闻中的事件与论元值的方法,存在误差传导问题,若前面的事件识别不准确,就会导致后续的论元值识别也不准确,从而导致从企业的舆情新闻中提取的信息存在错误。
发明内容
本公开的目的在于提供一种信息分析方法及装置、电子设备和计算机可读存储介质,进而至少在一定程度上提高从舆情新闻中提取事件与论元值的准确性。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种信息分析方法,包括:
获取待分析文本;
利用分析模型,预测所述待分析文本针对事件问题的答案,得到第一预测结果;其中,所述分析模型预先基于多个训练语料训练得到,所述训练语料标注有至少一个问题标注信息和针对所述至少一个问题中各问题的答案标注信息,所述至少一个问题包括以下任意一项或多项:事件问题,至少一个论元角色问题;
响应于所述第一预测结果包括所述事件问题的答案,利用所述分析模型预测所述事件问题的答案对应的各论元角色问题的答案,得到第二预测结果;
基于所述第一预测结果和所述第二预测结果,确定所述待分析文本对应的事件信息和论元信息。
可选地,在本公开上述任一实施例的信息分析方法中,所述利用分析模型,预测所述待分析文本针对事件问题的答案,包括:
向所述分析模型输入所述待分析文本和所述事件问题,经所述分析模型输出所述待分析文本针对所述事件问题的答案。
可选地,在本公开上述任一实施例的信息分析方法中,所述响应于所述第一预测结果包括所述事件问题的答案,利用所述分析模型预测所述事件问题的答案对应的各论元角色问题的答案,包括:
响应于所述第一预测结果包括所述事件问题的答案,获取所述事件问题的答案对应的各论元角色问题,并向所述分析模型输入所述对应的各论元角色问题,经所述分析模型输出所述待分析文本针对所述各论元角色问题的答案;或者,
响应于所述第一预测结果包括所述事件问题的答案,获取所述事件问题的答案对应的各论元角色问题,并向所述分析模型输入所述待分析文本和所述对应的各论元角色问题,经所述分析模型输出所述待分析文本针对所述各论元角色问题的答案。
可选地,在本公开上述任一实施例的信息分析方法中,所述向所述分析模型输入所述对应的各论元角色问题,经所述分析模型输出所述待分析文本针对所述各论元角色问题的答案,包括:
按照预设顺序,逐一向所述分析模型输入所述对应的各论元角色问题,经所述分析模型输出所述待分析文本针对所述各论元角色问题的答案;或者,
按照预设格式,向所述分析模型输入所述对应的各论元角色问题,经所述分析模型输出所述待分析文本针对所述各论元角色问题的答案。
可选地,在本公开上述任一实施例的信息分析方法中,向所述分析模型输入所述待分析文本和所述事件问题的答案对应的各论元角色问题,经所述分析模型输出所述待分析文本针对所述各论元角色问题的答案,包括:
按照预设顺序,逐一向所述分析模型输入所述待分析文本和所述对应的各论元角色问题,经所述分析模型输出所述待分析文本针对所述各论元角色问题的答案;或者,
按照预设格式,向所述分析模型输入所述待分析文本和所述对应的各论元角色问题,经所述分析模型输出所述待分析文本针对所述各论元角色问题的答案。
可选地,在本公开上述任一实施例的信息分析方法中,所述获取所述事件问题的答案对应的各论元角色问题,包括:
基于预先设定的第一对应关系,确定所述第一预测结果中的事件问题的答案对应的事件类型;
基于预先设定的第二对应关系,确定所述事件类型对应的各论元角色问题。
可选地,在本公开上述任一实施例的信息分析方法中,所述基于所述第一预测结果和所述第二预测结果,确定所述待分析文本对应的事件信息和论元信息,包括:
基于预先设定的第一对应关系,确定所述第一预测结果中的事件问题的答案对应的事件类型,基于所述第一预测结果中的事件问题和所述对应的事件类型,得到所述待分析文本对应的事件信息,所述待分析文本对应的事件信息包括所述对应的事件类型;
基于所述对应的各论元角色问题和所述对应的各论元角色问题的答案,得到所述待分析文本对应的论元信息,所述待分析文本对应的论元信息包括论元角色和所述论元角色的论元值。
可选地,在本公开上述任一实施例的信息分析方法中,所述分析模型包括:预训练语言模型。
可选地,在本公开上述任一实施例的信息分析方法中,预先基于多个训练语料训练得到所述分析模型,包括:
分别针对多个初始语料中的每个初始语料,按照预设标注方式添加至少一个问题标注信息和针对所述至少一个问题中各问题的答案标注信息,得到所述多个训练语料;
将所述多个训练语料分别输入所述分析模型,以使所述分析模型学习所述多个训练语料针对所述至少一个问题中各问题的答案。
可选地,在本公开上述任一实施例的信息分析方法中,针对初始语料按照预设标注方式添加至少一个问题标注信息和针对所述至少一个问题中各问题的答案标注信息,得到训练语料,包括:
将所述初始语料、所述至少一个问题中的各问题和各问题的答案按照预设方式拼接,得到训练语料。
可选地,在本公开上述任一实施例的信息分析方法中,还包括:
利用识别模型,识别所述待分析文本中是否存在否定词、以及所述否定词是否作用于所述待分析文本中的事件触发词;其中,所述识别模型预先基于否定词与事件触发词联合训练得到;
若所述待分析文本中存在否定词、且所述否定词作用于所述待分析文本中的事件触发词,基于所述否定词对所述待分析文本对应的事件信息和论元信息进行修正;或者,丢弃所述待分析文本对应的事件信息和论元信息。
根据本公开的第二方面,提供一种信息分析装置,包括:
获取模块,用于获取待分析文本;
第一预测模块,用于利用分析模型,预测所述待分析文本针对事件问题的答案,得到第一预测结果;其中,所述分析模型预先基于多个训练语料训练得到,所述训练语料标注有至少一个问题标注信息和针对所述至少一个问题中各问题的答案标注信息,所述至少一个问题包括以下任意一项或多项:事件问题,至少一个论元角色问题;
第二预测模块,用于响应于所述第一预测结果包括所述事件问题的答案,利用所述分析模型预测所述事件问题的答案对应的各论元角色问题的答案,得到第二预测结果;
确定模块,用于基于所述预测结果,确定所述待分析文本对应的事件信息和论元信息。
可选地,在本公开上述任一实施例的信息分析装置中,所述第一预测模块,具体用于:向所述分析模型输入所述待分析文本和所述事件问题,经所述分析模型输出所述待分析文本针对所述事件问题的答案。
可选地,在本公开上述任一实施例的信息分析装置中,所述第二预测模块包括:
获取单元,用于响应于所述第一预测结果包括所述事件问题的答案,获取所述事件问题的答案对应的各论元角色问题,并向所述分析模型输入所述对应的各论元角色问题、或者向所述分析模型输入所述待分析文本和所述对应的各论元角色问题;
所述分析模型,用于接收输入的所述对应的各论元角色问题、或者所述待分析文本和所述对应的各论元角色问题,输出所述待分析文本针对所述各论元角色问题的答案。
可选地,在本公开上述任一实施例的信息分析装置中,所述获取单元向所述分析模型输入所述对应的各论元角色问题时,具体用于:
按照预设顺序,逐一向所述分析模型输入所述对应的各论元角色问题;或者,
按照预设格式,向所述分析模型输入所述对应的各论元角色问题。
可选地,在本公开上述任一实施例的信息分析装置中,所述获取单元向所述分析模型输入所述待分析文本和所述事件问题的答案对应的各论元角色问题时,具体用于:
按照预设顺序,逐一向所述分析模型输入所述待分析文本和所述对应的各论元角色问题;或者,
按照预设格式,向所述分析模型输入所述待分析文本和所述对应的各论元角色问题。
可选地,在本公开上述任一实施例的信息分析装置中,所述获取单元获取所述事件问题的答案对应的各论元角色问题时,具体用于:
基于预先设定的第一对应关系,确定所述第一预测结果中的事件问题的答案对应的事件类型;
基于预先设定的第二对应关系,确定所述事件类型对应的各论元角色问题。
可选地,在本公开上述任一实施例的信息分析装置中,所述确定模块,包括:
第一确定单元,用于基于预先设定的第一对应关系,确定所述第一预测结果中的事件问题的答案对应的事件类型,基于所述第一预测结果中的事件问题和所述对应的事件类型,得到所述待分析文本对应的事件信息,所述待分析文本对应的事件信息包括所述对应的事件类型;
第二确定单元,用于基于所述对应的各论元角色问题和所述对应的各论元角色问题的答案,得到所述待分析文本对应的论元信息,所述待分析文本对应的论元信息包括论元角色和所述论元角色的论元值。
可选地,在本公开上述任一实施例的信息分析装置中,所述分析模型包括:预训练语言模型。
可选地,在本公开上述任一实施例的信息分析装置中,还包括:
标注模块,用于分别针对多个初始语料中的每个初始语料,按照预设标注方式添加至少一个问题标注信息和针对所述至少一个问题中各问题的答案标注信息,得到所述多个训练语料;
训练模块,用于将所述多个训练语料分别输入所述分析模型,以使所述分析模型学习所述多个训练语料针对所述至少一个问题中各问题的答案。
可选地,在本公开上述任一实施例的信息分析装置中,所述标注模块,具体用于:将所述初始语料、所述至少一个问题中的各问题和各问题的答案按照预设方式拼接,得到训练语料。
可选地,在本公开上述任一实施例的信息分析装置中,还包括:
识别模块,用于利用识别模型,识别所述待分析文本中是否存在否定词、以及所述否定词是否作用于所述待分析文本中的事件触发词;其中,所述识别模型预先基于否定词与事件触发词联合训练得到;
修正处理模块,用于根据所述识别模块的识别结果,若所述待分析文本中存在否定词、且所述否定词作用于所述待分析文本中的事件触发词,基于所述否定词对所述待分析文本对应的事件信息和论元信息进行修正;或者,丢弃所述待分析文本对应的事件信息和论元信息。
根据本公开的第三方面,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述信息分析方法。
根据本公开的第四方面,提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述信息分析方法。
根据本公开的第五方面,提供一种计算机程序,包括计算机可读代码,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现上述信息分析方法。
由上述技术方案可知,本公开示例性实施例中的信息分析方法及装置、电子设备和计算机可读存储介质至少具备以下优点和积极效果:
本公开实施例中的信息分析方法及装置、电子设备和计算机可读存储介质,获取待分析文本后,利用预先训练得到的分析模型,预测待分析文本针对事件问题的答案,得到第一预测结果,在第一预测结果包括事件问题的答案时,再利用分析模型预测该事件问题的答案对应的各论元角色问题的答案,得到第二预测结果,进而,基于第一预测结果和第二预测结果确定待分析文本对应的事件信息和论元信息。由于分析模型预先基于多个训练语料训练得到,每个训练语料标注有至少一个问题标注信息和针对所述至少一个问题中各问题的答案标注信息,所述至少一个问题包括以下任意一项或多项:事件问题,至少一个论元角色问题,分析模型可以预先通过大量的训练语料学习到针对事件问题的各种答案和各种事件问题的答案对应的各论元角色问题分别对应的答案、从而可以学习到事件信息和论元信息之间的规约关系,因此能够准确预测待分析文本针对事件问题的答案、以及该事件问题的答案对应的各论元角色问题的答案,从而准确确定待分析文本对应的事件信息和论元信息,提高了从待分析文本中获取事件信息与论元信息的准确性,本公开实施例用于对企业的舆情新闻进行信息提取时,可以提高从企业的舆情新闻中提取信息的准确性,相对于现有基于事件与论元的流水线方式来提取舆情新闻中的事件与论元值的方法,可以避免误差传导问题和由此导致的从企业的舆情新闻中提取的信息存在错误的问题。
本公开应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本公开实施例的一个系统架构示意图;
图2示出本公开第一示例性实施例中信息分析方法的流程示意图;
图3示出本公开第二示例性实施例中信息分析方法的流程示意图;
图4示出本公开第三示例性实施例中信息分析方法的流程示意图;
图5示出本公开第四示例性实施例中信息分析方法的流程示意图;
图6示出本公开第一示例性实施例中信息分析装置的框图;
图7示出本公开第二示例性实施例中信息分析装置的框图;
图8示出本公开示例性实施例中电子设备的框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施例使得本公开将更加全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。符号“/”一般表示前后关联对象是一种“或”的关系。
在本公开中,除非另有明确的规定和限定,“连接”等术语应做广义理解,例如,可以是电连接或可以互相通讯;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。
图1示出了可以应用本公开实施例的一个系统架构示意图。如图1所示,系统架构100可以包括终端设备101、102、103中的一种或多种,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式计算机、数字电影放映机等等。
服务器105可以是提供各种信息文本的服务器,例如各种网站、自媒体平台、数据库等的服务器。例如用户利用终端设备103(也可以是终端设备101或102)实时或定期从服务器105获取信息作为待分析文本,并执行本公开实施例的信息分析方法得到待分析文本对应的事件信息和论元信息,并以结构化信息存储方式存储在结构化数据库中,以便后续分析使用。
图2示出本公开一示例性实施例中信息分析方法的流程示意图。本实施例可应用在电子设备上,如图2所示,本实施例的信息分析方法包括如下步骤:
步骤201,获取待分析文本。
本公开实施例中的待分析文本中的字符可以为中文字符,也可以为英文字符,或者,还可以为数字等任意类型的字符,本公开实施例对待分析文本中字符的类型不作具体限定。另外,本公开实施例中的待分析文本可以是任意领域的文本,本公开实施例对待分析文本的内容和所属领域不做限定。
在其中一些实施方式中,本公开实施例中的待分析文本可以是企业的舆情新闻文本,该舆情新闻文本可以是原始的舆情新闻文本,也可以是对原始的舆情新闻文本进行预处理后的舆情新闻文本,其中的预处理例如可以是去除原始的舆情新闻文本中的表情符号、错误的标点符号等等,本公开实施例对舆情新闻文本的具体内容和表现形式、是否预处理以及预处理的具体方式不做限制。例如,企业的舆情新闻文本可以为“中储股份拟收购HB集团51%股权”,“雀巢裁员4000人:时代抛弃你时,连招呼都不会打!”等。
本公开实施例中的待分析文本,例如企业的舆情新闻文本,是非结构化信息。
本公开实施例中,可以实时或者按照一定周期从各网站、论坛、自媒体平台等获取待分析文本,或者,也可以接收用户输入的待分析文本,本公开实施例对获取待分析文本的途径和方式不做限定。
步骤202,利用分析模型,预测待分析文本针对事件问题的答案,得到第一预测结果。
其中,分析模型预先基于多个训练语料训练得到,训练语料标注有至少一个问题标注信息和针对所述至少一个问题中各问题的答案标注信息,所述至少一个问题可以包括但不限于以下任意一项或多项:事件问题,至少一个论元角色问题。
其中,事件是涉及参与者的特定发生,可以经常被描述为状态的改变。事件由事件触发词(Event Trigger)和描述事件结构的事件论元(Event Argument)构成,二者结合完整的描述了事件本身。其中,事件触发词也可以简称为触发词,是能够触动事件发生的词,是决定事件类别、事件类型的重要特征词,决定了事件类别和事件类型。事件论元简称为论元,是指事件描述中事件的各个组成要素(时间、地点、参与者、事件适配的相关内容等),要素即为论元,每个论元对应一种论元角色。
本公开实施例中,事件类别是指事件依据其内容所属的领域,例如划分为财经、交易、娱乐、科技、健康等领域,本公开实施例对具体划分的事件类别的数量和具体划分方式不做限定。
本公开实施例中,在每一个事件类别下,可以依据事件的内容进一步分为多个事件类型,例如可以在交易这一事件类别下具体包括收购、出售等事件类型,在财经这一事件类别下具体包括裁员、扩张等事件类型。事件类型也即事件类别下的子类别,因此也可以称为事件子类别。本公开实施例对事件类别下具体划分的事件类型的数量和具体划分方式不做限定。
各事件类别、事件类型具有对应的论元角色,例如出售/收购事件类型对应的论元角色可以包括:时间,出售方,交易物,出售价格,收购方;又如,裁员事件类型对应的论元角色可以包括:裁员方,裁员人数,裁员时间,裁员地点;再如破产事件类型对应的论元角色可以包括:破产方、破产日期等。本公开实施例对事件类别、事件类型对应的论元角色的数量和划分方式不做限定。
本公开实施例中,事件问题即关于事件类型的问题,用于确定事件类型,例如“发生了什么事件?”。论元角色问题即针对各事件类型对应的论元角色的问题,用于获取各论元角色的论元值,不同的事件类别、事件类型,对应的论元角色不同,则对应的论元角色问题也不同,例如针对裁员事件,对应的论元角色的问题可以是“裁员事件的裁员方?”、“裁员事件的裁员人数?”、“裁员事件的裁员时间?”和“裁员事件的裁员地点?”;再如针对收购事件,对应的论元角色的问题可以是“收购事件的时间?”、“收购事件的出售方?”、“收购事件的交易物?”、“收购事件的出售价格?”和“收购事件的收售方?”等。
步骤203,响应于第一预测结果包括事件问题的答案,利用分析模型预测第一预测结果中事件问题的答案对应的各论元角色问题的答案,得到第二预测结果。
由于不同事件类型对应的论元角色不同,在第一预测结果包括事件问题的答案时,再利用分析模型预测该事件问题的答案对应的各论元角色问题的答案。
可选地,若第一预测结果不包括事件问题的答案,即未预测出待分析文本针对事件问题的答案,则可以不执行本实施例的后续流程。
步骤204,基于第一预测结果和第二预测结果,确定待分析文本对应的事件信息和论元信息。
其中的事件信息可以包括具体的事件类型。论元信息可以包括各论元角色和各论元角色的论元值,其中的论元值即论元角色在待分析文本中对应的具体内容(也可以称为属性值),例如待分析文本“中储股份拟收购HB集团51%股权”中,论元角色包括:出售方、交易物、收购方,对应的论元值分别为:HB集团、51%股权、中储股份;再如待分析文本“雀巢裁员4000人:时代抛弃你时,连招呼都不会打!”中,论元角色包括:裁员方,裁员人数,对应的论元值分别为:雀巢、4000人。
进一步可选地,确定待分析文本对应的后,还可以根据各事件类别与各事件类别下划分的事件类型之间的对照表,获取待分析文本对应的事件类型所属的事件类别,则待分析文本对应的事件信息还可以包括所属的事件类别,从而最终得到待分析文本对应的事件类别、事件类型、各论元角色和各论元角色的论元值。
基于本实施例的信息分析方法,获取待分析文本后,利用预先训练得到的分析模型,预测待分析文本针对事件问题的答案,得到第一预测结果,在第一预测结果包括事件问题的答案时,再利用分析模型预测该事件问题的答案对应的各论元角色问题的答案,得到第二预测结果,进而,基于第一预测结果和第二预测结果确定待分析文本对应的事件信息和论元信息。由于分析模型预先基于多个训练语料训练得到,每个训练语料标注有至少一个问题标注信息和针对所述至少一个问题中各问题的答案标注信息,所述至少一个问题包括以下任意一项或多项:事件问题,至少一个论元角色问题,分析模型可以预先通过大量的训练语料学习到针对事件问题的各种答案和各种事件问题的答案对应的各论元角色问题分别对应的答案、从而可以学习到事件信息和论元信息之间的规约关系,因此能够准确预测待分析文本针对事件问题的答案、以及该事件问题的答案对应的各论元角色问题的答案,从而准确确定待分析文本对应的事件信息和论元信息,提高了从待分析文本中获取事件信息与论元信息的准确性,本公开实施例用于对企业的舆情新闻进行信息提取时,可以提高从企业的舆情新闻中提取信息的准确性,相对于现有基于事件与论元的流水线方式来提取舆情新闻中的事件与论元值的方法,可以避免误差传导问题和由此导致的从企业的舆情新闻中提取的信息存在错误的问题。
可选地,在其中一些实施方式中,在步骤202中,可以向分析模型输入待分析文本和事件问题,经分析模型输出待分析文本针对事件问题的答案。
具体地,在应用示例中,可以将待分析文本和事件问题独立输入分析模型中,也可以将待分析文本和事件问题按照预设格式拼接,将拼接得到的信息输入分析模型中,本公开实施例对向分析模型输入待分析文本和事件问题的格式和方式限定。
例如,可以将待分析文本和事件问题按照如下的预设格式拼接,得到如下信息:{"title":"(标题内容)","C-id":"1","paragraphs":[{"context":"(段落内容)","P-id":"(具体段落标识)","qas":[{"Q-id":"(问题标识)","question":"(事件问题)?","answers":[{"A-id":(答案标识),"text":"","answer_start":(具体起始位置)}]]}]}},将拼接得到的上述信息输入分析模型中,由分析模型预测各问题的答案文本以及该答案文本在所在段落中的起始位置,从而基于该起始位置从所在段落中提取相应的答案文本,并输出待分析文本针对的事件问题的问题标识及该事件问题的答案文本。其中,title表示待分析文本的标题,可以为空或非空,"title":""表示待分析文本的标题为空;()表示具体内容;C-id表示文本标识,用于唯一标识一个待分析文本;Paragraphs表示待分析文本的段落,context表示一个段落的文本,P-id表示段落标识,用于唯一标识待分析文本中的一个段落,例如"P-id":"1_1"表示该段落标识为1_1;qas表示问题和答案的拼接内容;Q-id表示问题标识,用于唯一标识一个问题;例如"P-id":"1_1_1"表示该问题的问题标识为1_1_1;question表示问题;answers表示问题的答案;A-id表示问题的答案标识,用于唯一标识一个问题的答案;text表示问题的答案文本,"text":""表示输入分析模型的问题的答案文本为空;answer_start表示答案文本在段落中的起始位置。以上格式仅以待分析文本包括一个段落为例,如果待分析文本包括多个段落,则多个段落对应的格式内容[{"context":"(段落内容)","P-id":"(具体段落标识)","qas":[{"Q-id":"(问题标识)","question":"(事件问题)?","answers":[{"A-id":(答案标识),"text":"","answer_start":(具体起始位置)}]]}]}可以按照段落在待分析文本中的顺序依次拼接。
以下以待分析文本“雀巢裁员4000人:时代抛弃你时,连招呼都不会打!”为例进行说明,可以将待分析文本“雀巢裁员4000人:时代抛弃你时,连招呼都不会打!”和事件问题“发生了什么事件?”按照如下的预设格式拼接,得到如下信息:{"title":"","C-id":"1","paragraphs":[{"context":"雀巢裁员4000人:时代抛弃你时,连招呼都不会打!","P-id":"1_1","qas":[{"Q-id":"1_1_1","question":"发生了什么事件?","answers":[{"A-id":1,"text":"","answer_start":}]]}]}}输入分析模型中,由分析模型预测出事件问题的答案文本“裁员”以及该答案文本“裁员”在所在段落中的起始位置2,从而基于该起始位置从所在段落中提取相应的答案文本,并输出待分析文本针对的事件问题的问题标识1_1_1和该事件问题的答案文本:裁员,作为第一预测结果。对该第一预测结果进行解析,根据问题标识所标识的问题和相应的答案文本可以得到待分析文本对应的事件信息:事件类型:裁员。
在具体应用中,针对每个问题可能没有答案,也可能有一个或多个答案,如果一个问题没有答案,则可以输出该问题的问题标识和内容为空的答案;如果一个问题有一个答案,可以直接输出该问题的问题标识和答案文本;如果一个问题有多个答案,则可以输出该问题的问题标识以及该问题的多个答案文本。
可选地,在其中一些实施方式中,在步骤203中,响应于第一预测结果包括事件问题的答案,可以获取该事件问题的答案对应的各论元角色问题,并向分析模型输入所述对应的各论元角色问题,经分析模型输出待分析文本针对所述各论元角色问题的答案。
具体地,在应用示例中,可以按照预设顺序,逐一向分析模型输入所述对应的各论元角色问题,经分析模型输出待分析文本针对所述各论元角色问题的答案;或者,也可以按照预设格式,一次向分析模型输入事件问题的答案对应的所有论元角色问题,经分析模型输出待分析文本针对所述各论元角色问题的答案。
继续以待分析文本“雀巢裁员4000人:时代抛弃你时,连招呼都不会打!”为例进行说明,按照预设顺序,逐一向分析模型输入裁员时间对应的各论元角色问题时,可以先向分析模型输入裁员方这一论元角色的问题“裁员事件的裁员方?”,例如按照如下预设格式输入:{"id":"1_1_2","question":"裁员事件的裁员方?","answers":[{"id":1,"text":"","answer_start":}]},由分析模型预测出裁员方这一论元角色的问题的答案文本“雀巢”以及该答案文本“雀巢”在所在段落中的起始位置0,从而基于该起始位置从所在段落中提取相应的答案文本“雀巢”,并输出裁员方这一论元角色的问题标识1_1_2和该裁员方问题的答案文本:雀巢。然后,再向分析模型输入裁员人数这一论元角色的问题“裁员事件的裁员人数?”,例如按照如下预设格式输入:{"id":"1_1_3","question":"裁员事件的裁员人数?","answers":[{"id":1,"text":"","answer_start":}]},由分析模型预测出裁员人数这一论元角色的问题的答案文本“4000人”以及该答案文本“4000人”在所在段落中的起始位置4,从而基于该起始位置从所在段落中提取相应的答案文本“4000人”,并输出裁员人数这一论元角色的问题标识1_1_3和该裁员人数问题的答案文本:4000人。然后,再向分析模型输入裁员时间这一论元角色的问题“裁员事件的裁员时间?”,例如按照如下预设格式输入:{"id":"1_1_4","question":"裁员事件的裁员人数?","answers":[{"id":1,"text":"","answer_start":}]},分析模型从该待分析文本中未预测出裁员时间这一论元角色的问题的答案,可以输出裁员时间这一论元角色的问题标识1_1_4和该裁员时间问题的答案文本(为空):。然后,再向分析模型输入裁员地点这一论元角色的问题“裁员事件的裁员地点?”,例如按照如下预设格式输入:{"id":"1_1_5","question":"裁员事件的裁员地点?","answers":[{"id":1,"text":"","answer_start":}]},分析模型从该待分析文本中未预测出裁员地点这一论元角色的问题的答案,可以输出裁员地点这一论元角色的问题标识1_1_5和该裁员地点问题的答案文本(为空):。分析模型输出的上述四个论元角色的问题标识和对应的答案文本作为第二预测结果。
继续以待分析文本“雀巢裁员4000人:时代抛弃你时,连招呼都不会打!”为例进行说明,按照预设格式,一次向分析模型输入事件问题的答案对应的所有论元角色问题时,可以按照如下预设格式,向分析模型输入裁员事件对应的所有论元角色问题:{"id":"1_1_2","question":"裁员事件的裁员方?","answers":[{"id":1,"text":"","answer_start":}]},{"id":"1_1_3","question":"裁员事件的裁员人数?","answers":[{"id":1,"text":"","answer_start":}]},{"id":"1_1_4","question":"裁员事件的裁员人数?","answers":[{"id":1,"text":"","answer_start":}]},{"id":"1_1_5","question":"裁员事件的裁员地点?","answers":[{"id":1,"text":"","answer_start":}]},由分析模型分别预测裁员方、裁员人数、裁员时间和裁员地点四个论元角色的问题的答案文本以及对应答案文本在所在段落中的起始位置,从而基于该起始位置从所在段落中提取相应的答案文本,并输出上述四个论元角色的问题标识和对应的答案文本:{"1_1_2":"裁员","1_1_3":4000人","1_1_4":"","1_1_5":""},作为第二预测结果。
对上述第二预测结果进行解析,根据各问题标识所标识的问题和相应的答案文本可以得到待分析文本对应的论元信息:论元:裁员方:雀巢,裁员人数:4000人。由此,最终得到的待分析文本对应的事件信息和论元信息为:事件类型:裁员;论元:裁员方:雀巢,裁员人数:4000人。
可选地,在另一些实施方式中,在步骤203中,响应于所述第一预测结果包括事件问题的答案,可以获取该事件问题的答案对应的各论元角色问题,并向分析模型输入待分析文本和所述对应的各论元角色问题,经分析模型输出待分析文本针对所述各论元角色问题的答案。
具体地,在应用示例中,可以按照预设顺序,逐一向分析模型输入待分析文本和所述对应的各论元角色问题,经分析模型输出待分析文本针对所述各论元角色问题的答案;或者,也可以按照预设格式,一次向分析模型输入待分析文本和事件问题的答案对应的所有论元角色问题,经分析模型输出待分析文本针对所述各论元角色问题的答案。
与上述其中一些实施方式相比,该实施方式中向分析模型输入所述对应的各论元角色问题时还同时输入待分析文本,具体的输入格式可以参考上述示例介绍,此处不再赘述。
图3示出本公开第二示例性实施例中信息分析方法的流程示意图。如图3所示,可以通过如下方式,获取事件问题的答案对应的各论元角色问题:
步骤301,基于预先设定的第一对应关系,确定第一预测结果中的事件问题的答案对应的事件类型。
其中,第一对应关系包括各事件类型与对应的事件触发词之间的对应关系,在该步骤301中,可以以第一预测结果中的事件问题的答案作为事件触发词,从第一对应关系中获取第一预测结果中的事件问题的答案对应的事件类型。本公开实施例中,事件类型也可以与部分事件触发词相同,例如,“收购”既可以是事件类型,也可以作为事件触发词。本公开实施例中,可以预先收集各事件类型对应的事件触发词建立触发词库,该触发词库中的事件触发词可以根据实际需求更新,以便基于有效确定基于各种待分析文本得到的第一预测结果中的事件问题的答案对应的事件类型。
步骤302,基于预先设定的第二对应关系,确定所述事件类型对应的各论元角色问题。
其中,第二对应关系可以包括各事件类型与论元角色问题之间的对应关系,每个事件类型可以对应一个或多个论元论元角色问题。
基于本实施例,可以预先设定各事件类型与对应的事件触发词之间的对应关系以及各事件类型与论元角色问题之间的对应关系,在分析模型输出第一预测结果后,能够基于上述对应关系确定需要输入分析模型的论元角色问题,从而可以向分析模型输入准确、有效的论元角色问题,以提高分析模型预测答案的准确性。
可选地,在其中一些实施方式中,在步骤204中,可以基于预先设定的第一对应关系,确定第一预测结果中的事件问题的答案对应的事件类型,基于第一预测结果中的事件问题和所述对应的事件类型,得到待分析文本对应的事件信息,该待分析文本对应的事件信息包括所述对应的事件类型;基于所述对应的各论元角色问题和各论元角色问题的答案,得到待分析文本对应的论元信息,该待分析文本对应的论元信息包括各论元角色和各论元角色的论元值。
例如,针对待分析文本“雀巢裁员4000人:时代抛弃你时,连招呼都不会打!”,可以对第一预测结果中的事件问题和所述对应的事件类型进行解析,得到该待分析文本对应的事件信息为:事件类型:裁员;对所述对应的各论元角色问题和各论元角色问题的答案进行解析,得到该待分析文本对应的论元信息包括:裁员方:雀巢,裁员人数:4000人,从而最终得到的待分析文本对应的事件信息和论元信息为:事件类型:裁员;论元:裁员方:雀巢,裁员人数:4000人。
可选地,在其中一些实施方式中,本公开上述实施例的分析模型可以选用预训练语言模型,例如BERT模型、ROBERT模型、ERNI模型等大型预训练语言模型,本公开实施例对具体采用的语言模型不做限制。
预训练语言模型可以通过建模海量数据中的实体概念等先验语义知识,学习完整概念的语义表示,对语义知识单元的表示更贴近真实世界,在基于字特征输入建模的同时,直接对先验语义知识单元进行建模,具有较强的语义表示能力。
可选地,在其中一些实施方式中,使用BERT模型、ROBERT模型、ERNI模型等大型预训练语言模型作为分析模型,使用大量训练语料对预训练语言模型进行精调(fine-tuning),来实现对进行预训练语言模型的训练。
图4示出本公开第三示例性实施例中信息分析方法的流程示意图。如图4所示,可以采用如下方式,预先基于多个训练语料训练得到分析模型:
步骤401,分别针对多个初始语料中的每个初始语料,按照预设标注方式添加至少一个问题标注信息和针对所述至少一个问题中各问题的答案标注信息,得到多个训练语料。
步骤402,将多个训练语料分别输入分析模型,以使分析模型学习多个训练语料针对所述至少一个问题中各问题的答案。
可选地,在其中一些实施方式中,可以采用无监督的训练方式训练分析模型,即让分析模型学习预设数量的训练语料中针对所述至少一个问题中各问题的答案,或者对分析模型的训练次数达到预设次数,本公开实施例对分析模型的具体训练方式不做限定。
或者,在另一些实施方式中,也可以采用有监督的训练方式训练分析模型,使得分析模型的第一预测结果和第一预测结果与训练语料的标注信息之间的差异小于预设差异。
基于本实施例,可以利用大量的训练语料训练分析模型,使分析模型可以充分学习到各训练语料中针对事件问题的各种答案和各种事件问题的答案对应的各论元角色问题分别对应的答案、从而可以学习到事件信息和论元信息之间的规约关系,这样,在分析模型训练完成后,可以能够准确预测待分析文本针对事件问题的答案、以及该事件问题的答案对应的各论元角色问题的答案,从而准确确定待分析文本对应的事件信息和论元信息。
可选地,在其中一些实施方式中,在步骤401中,可以将初始语料、所述至少一个问题中的各问题和各问题的答案按照预设方式拼接,得到训练语料。
以初始语料“消失的“外企光环”,5月份在华裁员900余人,香饽饽变“臭”了”为例,将初始语料、所述至少一个问题中的各问题和各问题的答案按照预设方式拼接,得到的训练语料为:{"title":"","id":"1","paragraphs":[{"context":"消失的“外企光环”,5月份在华裁员900余人,香饽饽变“臭”了","id":"1_1","qas":[{"id":"1_1_1","question":"发生了什么事件?","answers":[{"id":1,"text":"裁员","answer_start":15}]},{"id":"1_1_2","question":"裁员事件的裁员人数?","answers":[{"id":1,"text":"900余人","answer_start":17}]},{"id":"1_1_3","question":"裁员事件的时间?","answers":[{"id":1,"text":"5月份","answer_start":10}]}]}]}。其中字段的含义可以参见本公开上述实施例,此处不再赘述,与本公开上述分析模型预测问题答案的实施例相比,训练语料中同时包含问题答案及该答案文本在初始语料文本中的位置,另外,训练语料作为一条完整的语料一次输入待训练的分析模型。
图5示出本公开第四示例性实施例中信息分析方法的流程示意图。如图5所示,在上述各实施例的基础上,该实施例的信息分析方法还可以包括:
步骤501,利用识别模型,识别待分析文本中是否存在否定词、以及否定词是否作用于所述待分析文本中的事件触发词。
其中的否定词即否定含义的词语(NEGATION)。
若待分析文本中存在否定词、且该否定词作用于待分析文本中的事件触发词,执行步骤502;否则,若待分析文本中不存在否定词、和/或存在否定词但未作用于待分析文本中的事件触发词,不执行本实施例的后续流程。
其中,识别模型预先基于否定词与事件触发词联合训练得到。
步骤502,基于待分析文本中存在的否定词对待分析文本对应的事件信息和论元信息进行修正;或者,丢弃待分析文本对应的事件信息和论元信息。
可选地,在其中一些实施方式中,可以利用识别模型,识别信息文本中是否同时存在的否定词以及事件触发词,若同时识别出否定词和事件触发词,则认为该待分析文本中的事件为否定事件。否则,若未识别出否定词和事件触发词中的任一、或者否定词和事件触发词均未识别出来,则认为该待分析文本中的事件不是否定事件。
由于识别模型用于识别待分析文本中的事件为否定事件,也可以称为否定事件识别模型。
具体地,可以通过对多个初始语料中的否定词与事件触发词进行BIO标注,得到多个训练语料,为将用于训练分析模型和识别模型的训练语料进行区分,可以将上述用于训练分析模型的训练语料称为第一训练语料,将用于训练识别模型的训练语料称为第二训练语料,则基于通过对多个初始语料中的否定词与事件触发词进行BIO标注得到的多个第二训练语料训练识别模型,识别模型训练完成后便可以识别文本中的否定词及事件触发词。
其中,BIO标注,即将每个元素标注为B-X、I-X或者O。其中,B-X表示此元素所在的片段属于X类型并且此元素在此片段的开头,I-X表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,O表示不属于任何类型。例如,我们将X表示为名词短语(NounPhrase,NP),则BIO的三个标记为:B-NP:名词短语的开头;I-NP:名词短语的中间;O:不是名词短语。
例如,对初始语料“三维丝回复问询函:祥盛环保无业绩下滑风险”,进行否定词与否定词的事件触发词进行BIO标注得到的第二训练语料如下:三O、维O、丝O、回O、复O、问O、询O、函O、:O、祥O、盛O、环O、保O、无B-NEGATION、业B-TRIGGER、绩I-TRIGGER、下I-TRIGGER、滑I-TRIGGER、风O、险O。其中,否定词为“无”,事件触发词为“业绩下滑”,从而实现基于否定词与事件触发词对识别模型的进行联合训练。
在利用识别模型预测时,例如向识别模型输入信息文本“中兴否认一季度裁员4000人并无任何裁员计划”,识别模型输出的输出结果为:中O、兴O、否B-NEGATION、认I-NEGATION、一O、季O、度O、裁B-TRIGGER、员I-TRIGGER、4O、0O、0O、0O、人O、并B-NEGATION、无I-NEGATION、任O、何O、裁B-TRIGGER、员I-TRIGGER、计O、划O。基于该输出结果,其中第一个否定词及作用的事件触发词为“否认”、“裁员”,第一个否定词及作用的事件触发词为“并无”、“裁员”。
基于本实施例,利用识别模型,可以识别出否定事件,防止错误地将否定事件当作事件识别出来,如某企业未破产与某企业破产,在语义上是天差地别,基于待分析文本中存在的否定词对待分析文本对应的事件信息和论元信息进行修正,可以将非事件的错误消除,从而进一步提升事件信息抽取的准确率和事件识别的精准度;另外,识别出否定事件后,丢弃待分析文本对应的事件信息和论元信息,可以将未发生的否定事件予以剔除,从而防止识别出错误的舆情信息。
可选地,在其中一些实施方式中,本公开上述实施例的识别模型可以选用预训练语言模型,例如BERT模型、ROBERT模型、ERNI模型等大型预训练语言模型,本公开实施例对具体采用的语言模型不做限制。
本公开实施例中,分析模型可以预先通过大量的训练语料,设计先验知识,通过训练语料预先标注的先验知识(包括各种问题及对应答案),联合学习到针对事件问题的各种答案和各种事件问题的答案对应的各论元角色问题分别对应的答案、从而可以学习到事件信息和论元信息之间的规约关系,将事件问题和论元角色问题逐一问询,如事件类型、收购事件的时间、出售方、交易物、出售价格、收购方是什么?帮助分析模型逐一在文本中寻找答案,训练好模型后,就可以完成对输入的舆情信息进行阅读理解式抽取事件信息与论元信息,可以有效解决现有技术基于事件与论元的流水线方式提取的事件与论元角色存在信息错误、匹配错乱的问题。
本公开实施例使用带有先验知识的问题和答案训练分析模型,可以解决事件与论元对齐问题。例如裁员事件的论元为裁员人数、裁员方、裁员日期等,破产事件的论元为破产方、破产日期等,现有技术基于事件与论元的流水线方式确定事件及论元时,针对裁员事件,论元识别时,可能部分标签会识别为破产方等,出现论元与事件不对齐。而基于本公开实施例,分析模型通过训练可以联合学习到针对事件问题的各种答案和各种事件问题的答案对应的各论元角色问题分别对应的答案、从而可以学习到事件信息和论元信息之间的规约关系,采用阅读理解式的问答,例如裁员事件的裁员方是谁?有则输出答案,无则输出空,从而可以解决论元与事件对齐问题。
基于本公开实施例,可以从松散、无结构的非结构化自然语言文本中抽取出事件信息和论元信息,例如事件类型,事件的参与者,发生时间和地点等,并以结构化的形式呈现出来,以便于后续进行各项应用。
基于本公开实施例,得到待分析文本对应的事件信息和论元信息后,可以进行各项应用,例如可以以结构化的形式展现和表示待分析文本对应的事件信息和论元信息,在方便用户用快速理解事件;又例如,在金融领域场景中,通过公司待分析文本对应的事件信息和论元信息,可以进行有效地风险控制,本实施例对待分析文本的对应的事件信息和论元信息的应用场景不作限定。
图6示出本公开第一示例性实施例中信息分析装置的框图。本公开任一实施例提供的信息分析装置可用于实现本公开上述实施例中信息分析方法。本公开任一实施例提供的信息分析装置可以设置在终端设备上,也可以设置在服务端上,或者部分设置在终端设备上,部分设置在服务端上,例如,可以设置在图1中的服务器105上,但本公开并不限定于此。
如图6所示,该实施例的信息分析装置包括:获取模块601,第一预测模块602,第二预测模块603和确定模块604。其中:
获取模块601,用于获取待分析文本。
第一预测模块602,用于利用分析模型,预测待分析文本针对事件问题的答案,得到第一预测结果;其中,分析模型预先基于多个训练语料训练得到,训练语料标注有至少一个问题标注信息和针对至少一个问题中各问题的答案标注信息,至少一个问题包括以下任意一项或多项:事件问题,至少一个论元角色问题。
第二预测模块603,用于响应于第一预测结果包括事件问题的答案,利用分析模型预测事件问题的答案对应的各论元角色问题的答案,得到第二预测结果。
确定模块604,用于基于预测结果,确定待分析文本对应的事件信息和论元信息。
基于本实施例的信息分析装置,获取待分析文本后,利用预先训练得到的分析模型,预测待分析文本针对事件问题的答案,得到第一预测结果,在第一预测结果包括事件问题的答案时,再利用分析模型预测该事件问题的答案对应的各论元角色问题的答案,得到第二预测结果,进而,基于第一预测结果和第二预测结果确定待分析文本对应的事件信息和论元信息。由于分析模型预先基于多个训练语料训练得到,每个训练语料标注有至少一个问题标注信息和针对所述至少一个问题中各问题的答案标注信息,所述至少一个问题包括以下任意一项或多项:事件问题,至少一个论元角色问题,分析模型可以预先通过大量的训练语料学习到针对事件问题的各种答案和各种事件问题的答案对应的各论元角色问题分别对应的答案、从而可以学习到事件信息和论元信息之间的规约关系,因此能够准确预测待分析文本针对事件问题的答案、以及该事件问题的答案对应的各论元角色问题的答案,从而准确确定待分析文本对应的事件信息和论元信息,提高了从待分析文本中获取事件信息与论元信息的准确性,本公开实施例用于对企业的舆情新闻进行信息提取时,可以提高从企业的舆情新闻中提取信息的准确性,相对于现有基于事件与论元的流水线方式来提取舆情新闻中的事件与论元值的方法,可以避免误差传导问题和由此导致的从企业的舆情新闻中提取的信息存在错误的问题。
可选地,在其中一些实施方式中,第一预测模块602,具体用于:向分析模型输入待分析文本和事件问题,经分析模型输出待分析文本针对事件问题的答案。
可选地,在其中一些实施方式中,第二预测模块603可以包括:获取单元6031,用于响应于第一预测结果包括事件问题的答案,获取事件问题的答案对应的各论元角色问题,并向分析模型6032输入对应的各论元角色问题、或者向分析模型60.32输入待分析文本和对应的各论元角色问题;分析模型6032,用于接收输入的对应的各论元角色问题、或者待分析文本和对应的各论元角色问题,输出待分析文本针对各论元角色问题的答案。
可选地,在其中一些实施方式中,获取单元6031向分析模型6032输入对应的各论元角色问题时,具体用于:按照预设顺序,逐一向分析模型6032输入对应的各论元角色问题;或者,按照预设格式,向分析模型6032输入对应的各论元角色问题。
可选地,在其中一些实施方式中,获取单元6031向分析模型6032输入待分析文本和事件问题的答案对应的各论元角色问题时,具体用于:按照预设顺序,逐一向分析模型6032输入待分析文本和对应的各论元角色问题;或者,按照预设格式,向分析模型6032输入待分析文本和对应的各论元角色问题。
可选地,在其中一些实施方式中,获取单元6031获取事件问题的答案对应的各论元角色问题时,具体用于:基于预先设定的第一对应关系,确定第一预测结果中的事件问题的答案对应的事件类型;基于预先设定的第二对应关系,确定事件类型对应的各论元角色问题。
可选地,在其中一些实施方式中,确定模块604可以包括:第一确定单元6041,用于基于预先设定的第一对应关系,确定第一预测结果中的事件问题的答案对应的事件类型,基于第一预测结果中的事件问题和对应的事件类型,得到待分析文本对应的事件信息,该待分析文本对应的事件信息包括对应的事件类型;第二确定单元6042,用于基于对应的各论元角色问题和对应的各论元角色问题的答案,得到待分析文本对应的论元信息,该待分析文本对应的论元信息包括论元角色和论元角色的论元值。
可选地,在其中一些实施方式中,本公开上述实施例的分析模型可以选用预训练语言模型,例如BERT模型、ROBERT模型、ERNI模型等大型预训练语言模型,本公开实施例对具体采用的语言模型不做限制。
图7示出本公开第二示例性实施例中信息分析装置的框图。如图7所示,在图6所示实施例的基础上,该实施例的信息分析装置还可以包括:标注模块701和训练模块702。其中:
标注模块701,用于分别针对多个初始语料中的每个初始语料,按照预设标注方式添加至少一个问题标注信息和针对至少一个问题中各问题的答案标注信息,得到上述多个训练语料。
训练模块702,用于将上述多个训练语料分别输入分析模型,以使分析模型学习多个训练语料针对至少一个问题中各问题的答案。
可选地,在其中一些实施方式中,标注模块701,具体用于:将初始语料、至少一个问题中的各问题和各问题的答案按照预设方式拼接,得到训练语料。
可选地,再参见图7,在上述各实施例的基础上,信息分析装置还可以包括:识别模块703和修正处理模块704。其中:
识别模块703,用于利用识别模型,识别待分析文本中是否存在否定词、以及否定词是否作用于待分析文本中的事件触发词;其中,该识别模型预先基于否定词与事件触发词联合训练得到。
修正处理模块704,用于根据识别模块的识别结果,若待分析文本中存在否定词、且否定词作用于待分析文本中的事件触发词,基于否定词对待分析文本对应的事件信息和论元信息进行修正;或者,丢弃待分析文本对应的事件信息和论元信息。
本公开实施例提供的信息分析装置中的各个模块、单元和子单元的具体实现可以参照上述信息分析方法中的内容,在此不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块、单元和子单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块、单元和子单元的特征和功能可以在一个模块、单元和子单元中具体化。反之,上文描述的一个模块、单元和子单元的特征和功能可以进一步划分为由多个模块、单元和子单元来具体化。
本公开实施例还提供了一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述任一实施例所述的信息分析方法。
图8示出本公开示例性实施例中电子设备的框图。如图8所示,示例电子设备80包括用于执行软件例程的处理器801尽管为了清楚起见示出了单个处理器,但是电子设备80也可以包括多处理器系统。处理器801连接到通信基础设施802,用于与电子设备80的其他组件进行通信。通信基础设施802可以包括例如通信总线、交叉开关或网络。
电子设备80还包括诸如随机存取存储器(Random Access Memory,RAM)之类的存储器,所述存储器可包括主存储器803和辅助存储器810。辅助存储器810可以包括,例如硬盘驱动器811和/或可移动存储驱动器812,可移动存储驱动器812可以包括软盘驱动器,磁带驱动器,光盘驱动器等。可移动存储驱动器812以常规方式对可移动存储单元813进行读取和/或写入。可移动存储单元813可以包括由可移动存储驱动器812读取和写入的软盘、磁带、光盘等。相关领域技术人员可以理解,可移动存储单元813包括其上存储有计算机可执行程序代码指令和/或数据的计算机可读存储介质。
在一种可选实施方式中,辅助存储器810可以额外包括或选择性包括用于允许将计算机程序或其他指令加载到电子设备80中的其他类似装置。这样的装置可以包括例如可移动存储单元821和接口820。可移动存储单元821和接口820的示例包括:程序卡带(cartridge)和卡带接口(例如可在视频游戏控制台设备中找到的程序卡带和卡带接口)、可移动存储芯片(例如EPROM或PROM)和相关联的插槽、以及其他可移动存储单元821和允许软件和数据从可移动存储单元821传输到电子设备80的接口820。
电子设备80还包括至少一个通信接口840。通信接口840允许软件和数据经由通信路径841在电子设备80和外部设备之间传输。在本发明的各种实施例中,通信接口840允许数据在电子设备80和诸如公共数据或私有数据通信网络之类的数据通信网络之间传输。通信接口840可用于在不同的电子设备80之间交换数据,这些电子设备80形成互连的计算机网络的一部分。通信接口840的示例可以包括调制解调器、网络接口(诸如以太网卡)、通信端口、具有相关电路的天线等等。通信接口840可以是有线的或者可以是无线的。经由通信接口840传输的软件和数据为信号形式,该信号可以是能够被通信接口840接收的电、磁、光或其他信号。这些信号经由通信路径841被提供给通信接口。
如图8所示,电子设备80还包括显示器接口831和音频接口832,显示器接口831执行用于将图像渲染到关联的显示器830的操作,音频接口832用于执行通过关联的扬声器833播放音频内容的操作。
在本公开文件中,术语“计算机程序产品”部分程度上可以指代:可移动存储单元813、可移动存储单元821、安装在硬盘驱动器811中的硬盘、或承载着软件通过通信路径841(无线链路或电缆)到通信接口840的载波。计算机可读存储介质是指将记录的指令和/或数据提供给电子设备80以执行和/或处理的任何非暂时的有形的存储介质。这种存储介质的示例包括软盘、磁带、CD-ROM、DVD、蓝光TM光盘、硬盘驱动器、ROM或集成电路、USB存储器、磁光盘、或诸如PCMCIA卡之类的计算机可读卡等等,这些部件无论是在电子设备80的内部还是外部均可。瞬态或非有形计算机可读传输介质也可以参与向电子设备80提供软件、应用程序、指令和/或数据,这种传输介质的示例包括无线电或红外传输信道、到另一台计算机或另一个联网设备的网络连接、以及包括电子邮件传输和记录在网站上的信息等的互联网或内联网。
计算机程序(也被称为计算机程序代码)存储在主存储器803和/或辅助存储器810中。也可以经由通信接口840来接收计算机程序。此类计算机程序在被执行时使电子设备80能够执行本文所讨论的实施例的一个或多个特征。在各种实施例中,计算机程序在被执行时,使处理器801能够执行上述实施例的特征。因此,此类计算机程序代表计算机系统80的控制器。
软件可以存储在计算机程序产品中,并使用可移动存储驱动器812、硬盘驱动器811或接口820加载到电子设备80中。替代地,可以通过通信路径841将计算机程序产品下载到计算机系统80。该软件在由处理器801执行时促使电子设备80执行本文描述的实施例的功能。
应该理解,图8的实施例仅以示例的方式给出。因此,在一些实施例中,可以省略电子设备80的一个或多个特征。而且,在一些实施例中,电子设备80的一个或多个特征可以被组合在一起。另外,在一些实施例中,电子设备80的一个或多个特征可以被分成一个或多个组成部分。
可以理解的是,图8所示的要素起到了提供执行以上实施例中所描述的服务器的各种功能和操作的途径的作用。
在一种实施方式中,服务器通常可以被描述为包括至少一个处理器和至少一个包括计算机程序代码的存储器的物理设备。所述至少一个存储器和计算机程序代码被配置为与所述至少一个处理器一起促使所述物理设备执行必要的操作。
本公开实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可以实现图2-5任一所示信息分析方法的功能。
本公开实施例还提供了一种计算机程序,包括计算机可读代码,当该计算机可读代码在设备上运行时,所述设备中的处理器执行用于可以实现图2-5任一所示信息分析方法的功能。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被电子设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,在本发明中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本发明为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
可能以许多方式来实现本发明的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。
Claims (15)
1.一种信息分析方法,其特征在于,包括:
获取待分析文本;
利用分析模型,预测所述待分析文本针对事件问题的答案,得到第一预测结果;其中,所述分析模型预先基于多个训练语料训练得到,所述训练语料标注有至少一个问题标注信息和针对所述至少一个问题中各问题的答案标注信息,所述至少一个问题包括以下任意一项或多项:事件问题,至少一个论元角色问题;
响应于所述第一预测结果包括所述事件问题的答案,利用所述分析模型预测所述事件问题的答案对应的各论元角色问题的答案,得到第二预测结果;
基于所述第一预测结果和所述第二预测结果,确定所述待分析文本对应的事件信息和论元信息。
2.根据权利要求1所述的方法,其特征在于,所述利用分析模型,预测所述待分析文本针对事件问题的答案,包括:
向所述分析模型输入所述待分析文本和所述事件问题,经所述分析模型输出所述待分析文本针对所述事件问题的答案。
3.根据权利要求1或2所述的方法,其特征在于,所述响应于所述第一预测结果包括所述事件问题的答案,利用所述分析模型预测所述事件问题的答案对应的各论元角色问题的答案,包括:
响应于所述第一预测结果包括所述事件问题的答案,获取所述事件问题的答案对应的各论元角色问题,并向所述分析模型输入所述对应的各论元角色问题,经所述分析模型输出所述待分析文本针对所述各论元角色问题的答案;或者,
响应于所述第一预测结果包括所述事件问题的答案,获取所述事件问题的答案对应的各论元角色问题,并向所述分析模型输入所述待分析文本和所述对应的各论元角色问题,经所述分析模型输出所述待分析文本针对所述各论元角色问题的答案。
4.根据权利要求3所述的方法,其特征在于,所述向所述分析模型输入所述对应的各论元角色问题,经所述分析模型输出所述待分析文本针对所述各论元角色问题的答案,包括:
按照预设顺序,逐一向所述分析模型输入所述对应的各论元角色问题,经所述分析模型输出所述待分析文本针对所述各论元角色问题的答案;或者,
按照预设格式,向所述分析模型输入所述对应的各论元角色问题,经所述分析模型输出所述待分析文本针对所述各论元角色问题的答案。
5.根据权利要求3所述的方法,其特征在于,向所述分析模型输入所述待分析文本和所述事件问题的答案对应的各论元角色问题,经所述分析模型输出所述待分析文本针对所述各论元角色问题的答案,包括:
按照预设顺序,逐一向所述分析模型输入所述待分析文本和所述对应的各论元角色问题,经所述分析模型输出所述待分析文本针对所述各论元角色问题的答案;或者,
按照预设格式,向所述分析模型输入所述待分析文本和所述对应的各论元角色问题,经所述分析模型输出所述待分析文本针对所述各论元角色问题的答案。
6.根据权利要求3-5任一所述的方法,其特征在于,所述获取所述事件问题的答案对应的各论元角色问题,包括:
基于预先设定的第一对应关系,确定所述第一预测结果中的事件问题的答案对应的事件类型;
基于预先设定的第二对应关系,确定所述事件类型对应的各论元角色问题。
7.根据权利要求1-6任一所述的方法,其特征在于,所述基于所述第一预测结果和所述第二预测结果,确定所述待分析文本对应的事件信息和论元信息,包括:
基于预先设定的第一对应关系,确定所述第一预测结果中的事件问题的答案对应的事件类型,基于所述第一预测结果中的事件问题和所述对应的事件类型,得到所述待分析文本对应的事件信息,所述待分析文本对应的事件信息包括所述对应的事件类型;
基于所述对应的各论元角色问题和所述对应的各论元角色问题的答案,得到所述待分析文本对应的论元信息,所述待分析文本对应的论元信息包括论元角色和所述论元角色的论元值。
8.根据权利要求1-7任一所述的方法,其特征在于,所述分析模型包括:预训练语言模型。
9.根据权利要求1-8任一所述的方法,其特征在于,预先基于多个训练语料训练得到所述分析模型,包括:
分别针对多个初始语料中的每个初始语料,按照预设标注方式添加至少一个问题标注信息和针对所述至少一个问题中各问题的答案标注信息,得到所述多个训练语料;
将所述多个训练语料分别输入所述分析模型,以使所述分析模型学习所述多个训练语料针对所述至少一个问题中各问题的答案。
10.根据权利要求9所述的方法,其特征在于,针对初始语料按照预设标注方式添加至少一个问题标注信息和针对所述至少一个问题中各问题的答案标注信息,得到训练语料,包括:
将所述初始语料、所述至少一个问题中的各问题和各问题的答案按照预设方式拼接,得到训练语料。
11.根据权利要求1-10任一所述的方法,其特征在于,还包括:
利用识别模型,识别所述待分析文本中是否存在否定词、以及所述否定词是否作用于所述待分析文本中的事件触发词;其中,所述识别模型预先基于否定词与事件触发词联合训练得到;
若所述待分析文本中存在否定词、且所述否定词作用于所述待分析文本中的事件触发词,基于所述否定词对所述待分析文本对应的事件信息和论元信息进行修正;或者,丢弃所述待分析文本对应的事件信息和论元信息。
12.一种信息分析装置,其特征在于,包括:
获取模块,用于获取待分析文本;
第一预测模块,用于利用分析模型,预测所述待分析文本针对事件问题的答案,得到第一预测结果;其中,所述分析模型预先基于多个训练语料训练得到,所述训练语料标注有至少一个问题标注信息和针对所述至少一个问题中各问题的答案标注信息,所述至少一个问题包括以下任意一项或多项:事件问题,至少一个论元角色问题;
第二预测模块,用于响应于所述第一预测结果包括所述事件问题的答案,利用所述分析模型预测所述事件问题的答案对应的各论元角色问题的答案,得到第二预测结果;
确定模块,用于基于所述预测结果,确定所述待分析文本对应的事件信息和论元信息。
13.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-11中任意一项所述的信息分析方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-11中任意一项所述的信息分析方法。
15.一种计算机程序,包括计算机可读代码,其特征在于,当所述计算机可读代码在设备上运行时,所述设备中的处理器执行用于实现权利要求1-11中任意一项所述的信息分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110216017.0A CN113032520A (zh) | 2021-02-26 | 2021-02-26 | 信息分析方法及装置、电子设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110216017.0A CN113032520A (zh) | 2021-02-26 | 2021-02-26 | 信息分析方法及装置、电子设备和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113032520A true CN113032520A (zh) | 2021-06-25 |
Family
ID=76461991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110216017.0A Pending CN113032520A (zh) | 2021-02-26 | 2021-02-26 | 信息分析方法及装置、电子设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113032520A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591467A (zh) * | 2021-08-06 | 2021-11-02 | 北京金堤征信服务有限公司 | 事件主体识别方法及装置、电子设备、介质和程序 |
CN113609391A (zh) * | 2021-08-06 | 2021-11-05 | 北京金堤征信服务有限公司 | 事件识别方法及装置、电子设备、介质和程序 |
CN113808709A (zh) * | 2021-08-31 | 2021-12-17 | 天津师范大学 | 一种基于文本分析的心理弹性预测方法及系统 |
CN118228839A (zh) * | 2024-04-23 | 2024-06-21 | 北京面壁智能科技有限责任公司 | 用于模型训练的复杂指令训练数据的构造方法、装置、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134757A (zh) * | 2019-04-19 | 2019-08-16 | 杭州电子科技大学 | 一种基于多头注意力机制的事件论元角色抽取方法 |
CN110489653A (zh) * | 2019-08-23 | 2019-11-22 | 北京金堤科技有限公司 | 舆情信息查询方法和装置、系统、电子设备、存储介质 |
CN110704598A (zh) * | 2019-09-29 | 2020-01-17 | 北京明略软件系统有限公司 | 一种语句信息的抽取方法、抽取装置及可读存储介质 |
CN111125548A (zh) * | 2019-12-31 | 2020-05-08 | 北京金堤科技有限公司 | 舆论监督方法和装置、电子设备和存储介质 |
CN111325020A (zh) * | 2020-03-20 | 2020-06-23 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
CN111401033A (zh) * | 2020-03-19 | 2020-07-10 | 北京百度网讯科技有限公司 | 事件抽取方法、事件抽取装置和电子设备 |
CN111414482A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
CN111597817A (zh) * | 2020-05-27 | 2020-08-28 | 北京明略软件系统有限公司 | 一种事件信息抽取方法及装置 |
CN112116075A (zh) * | 2020-09-18 | 2020-12-22 | 厦门安胜网络科技有限公司 | 事件提取模型生成方法和装置、文本事件提取方法和装置 |
CN112149386A (zh) * | 2020-09-25 | 2020-12-29 | 杭州中软安人网络通信股份有限公司 | 一种事件抽取方法、存储介质及服务器 |
-
2021
- 2021-02-26 CN CN202110216017.0A patent/CN113032520A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134757A (zh) * | 2019-04-19 | 2019-08-16 | 杭州电子科技大学 | 一种基于多头注意力机制的事件论元角色抽取方法 |
CN110489653A (zh) * | 2019-08-23 | 2019-11-22 | 北京金堤科技有限公司 | 舆情信息查询方法和装置、系统、电子设备、存储介质 |
CN110704598A (zh) * | 2019-09-29 | 2020-01-17 | 北京明略软件系统有限公司 | 一种语句信息的抽取方法、抽取装置及可读存储介质 |
CN111125548A (zh) * | 2019-12-31 | 2020-05-08 | 北京金堤科技有限公司 | 舆论监督方法和装置、电子设备和存储介质 |
CN111401033A (zh) * | 2020-03-19 | 2020-07-10 | 北京百度网讯科技有限公司 | 事件抽取方法、事件抽取装置和电子设备 |
CN111325020A (zh) * | 2020-03-20 | 2020-06-23 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
CN111414482A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
CN111597817A (zh) * | 2020-05-27 | 2020-08-28 | 北京明略软件系统有限公司 | 一种事件信息抽取方法及装置 |
CN112116075A (zh) * | 2020-09-18 | 2020-12-22 | 厦门安胜网络科技有限公司 | 事件提取模型生成方法和装置、文本事件提取方法和装置 |
CN112149386A (zh) * | 2020-09-25 | 2020-12-29 | 杭州中软安人网络通信股份有限公司 | 一种事件抽取方法、存储介质及服务器 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113591467A (zh) * | 2021-08-06 | 2021-11-02 | 北京金堤征信服务有限公司 | 事件主体识别方法及装置、电子设备、介质和程序 |
CN113609391A (zh) * | 2021-08-06 | 2021-11-05 | 北京金堤征信服务有限公司 | 事件识别方法及装置、电子设备、介质和程序 |
CN113591467B (zh) * | 2021-08-06 | 2023-11-03 | 北京金堤征信服务有限公司 | 事件主体识别方法及装置、电子设备、介质 |
CN113609391B (zh) * | 2021-08-06 | 2024-04-19 | 北京金堤征信服务有限公司 | 事件识别方法及装置、电子设备、介质和程序 |
CN113808709A (zh) * | 2021-08-31 | 2021-12-17 | 天津师范大学 | 一种基于文本分析的心理弹性预测方法及系统 |
CN113808709B (zh) * | 2021-08-31 | 2024-03-22 | 天津师范大学 | 一种基于文本分析的心理弹性预测方法及系统 |
CN118228839A (zh) * | 2024-04-23 | 2024-06-21 | 北京面壁智能科技有限责任公司 | 用于模型训练的复杂指令训练数据的构造方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112860852B (zh) | 信息分析方法及装置、电子设备和计算机可读存储介质 | |
CN108536852B (zh) | 问答交互方法和装置、计算机设备及计算机可读存储介质 | |
CN113032520A (zh) | 信息分析方法及装置、电子设备和计算机可读存储介质 | |
US9710829B1 (en) | Methods, systems, and articles of manufacture for analyzing social media with trained intelligent systems to enhance direct marketing opportunities | |
CN112686022A (zh) | 违规语料的检测方法、装置、计算机设备及存储介质 | |
WO2020199600A1 (zh) | 情感极性分析方法及相关装置 | |
CN110287405B (zh) | 情感分析的方法、装置和存储介质 | |
US11646984B2 (en) | Emoji recommendation system and method | |
CN112699645B (zh) | 语料标注方法、装置及设备 | |
CN110399473B (zh) | 为用户问题确定答案的方法和装置 | |
CN118093839B (zh) | 基于深度学习的知识运营问答对话处理方法及系统 | |
CN112906361A (zh) | 文本数据的标注方法和装置、电子设备和存储介质 | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
CN117540803A (zh) | 基于大模型的决策引擎配置方法、装置、电子设备及介质 | |
CN115455151A (zh) | 一种ai情绪可视化识别方法、系统及云平台 | |
CN115374259A (zh) | 一种问答数据挖掘方法、装置及电子设备 | |
CN113609390A (zh) | 信息分析方法及装置、电子设备和计算机可读存储介质 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN117370512A (zh) | 回复对话的方法、装置、设备及存储介质 | |
KR20210009885A (ko) | 오프라인 오브젝트에 관한 콘텐츠 자동 생성 방법, 장치 및 컴퓨터 판독가능 저장 매체 | |
Samuel et al. | The dark side of sentiment analysis: An exploratory review using lexicons, dictionaries, and a statistical monkey and chimp | |
CN112784015B (zh) | 信息识别方法和装置、设备、介质和程序 | |
CN114186048A (zh) | 基于人工智能的问答回复方法、装置、计算机设备及介质 | |
CN110929528A (zh) | 对语句情感分析的方法、装置、服务器及存储介质 | |
CN113591467B (zh) | 事件主体识别方法及装置、电子设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |