CN115409035A - 交谈信息获取方法、装置、存储介质和电子设备 - Google Patents

交谈信息获取方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN115409035A
CN115409035A CN202210625927.9A CN202210625927A CN115409035A CN 115409035 A CN115409035 A CN 115409035A CN 202210625927 A CN202210625927 A CN 202210625927A CN 115409035 A CN115409035 A CN 115409035A
Authority
CN
China
Prior art keywords
conversation
text
target data
chat
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210625927.9A
Other languages
English (en)
Inventor
李凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jindi Technology Co Ltd
Original Assignee
Beijing Jindi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jindi Technology Co Ltd filed Critical Beijing Jindi Technology Co Ltd
Priority to CN202210625927.9A priority Critical patent/CN115409035A/zh
Publication of CN115409035A publication Critical patent/CN115409035A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种交谈信息获取方法、装置、存储介质和电子设备,其中,该方法包括:获取言论数据的标题,判断标题中是否存在预设关键词信息,若是,则对言论数据的言论文本进行预处理;根据标题和预处理后的言论文本获取目标数据,目标数据包括:交谈机构、交谈时间、交谈公司和交谈问题;将获取的目标数据作为交谈信息。通过对言论数据中的交谈信息进行抽取,可以有效地过滤得到言论中与交谈相关的数据,通过获得交谈关键的四个维度信息:交谈机构、交谈时间、交谈公司和交谈问题,可以直接提供给用户结构化的信息,大大降低了用户对于繁杂的言论数据的阅读成本。

Description

交谈信息获取方法、装置、存储介质和电子设备
技术领域
本发明涉及计算机技术领域,具体涉及一种交谈信息获取方法、装置、存储介质、电子设备和计算机程序产品。
背景技术
目前,每天都会有大量的新闻言论产生,其中又有许多新闻言论和交谈相关。用户希望从大量的言论信息中得到与交谈相关的言论,同时能快速得知交谈的时间、机关、公司和问题等信息。这些信息不仅可以帮助用户快速地发现有关企业的重要动态,更能辅助用户及时做出决策。但由于新闻言论的数量庞大以及内容繁杂,导致用户无法直接从中获取相关信息。
现有技术中在进行新闻言论的关键信息提取时,往往是通过人工构建抽取规则或者人工去新闻中进行浏览筛选获得交谈的相关信息,这种方式的准确性和实时性都比较差。
具体地,现有技术中大多是直接通过人工构建抽取规则或者人工浏览筛选的方式来获取交谈的相关信息,并且未能针对重复的新闻言论进行有效地去重处理,导致结果中出现多条重复的数据。并且由于言论的格式复杂,单纯采用抽取规则无法覆盖所有情况,导致抽取的结果准确性较低;而使用人工进行浏览筛选则耗费人力且低效。
因此,如何对新闻言论中的交谈相关的言论信息进行获取是待解决的技术问题。
发明内容
基于此,针对现有技术中无法有效地对新闻言论中的交谈相关的言论信息进行获取的问题,本发明提供了一种交谈信息获取方法、装置、存储介质、电子设备和计算机程序产品。
第一方面,本发明实施例提供了一种交谈信息获取方法,该方法包括:
获取言论数据的标题,判断标题中是否存在预设关键词信息,若是,则对言论数据的言论文本进行预处理;
根据标题和预处理后的言论文本获取目标数据,目标数据包括:交谈机构、交谈时间、交谈公司和交谈问题;
将获取的目标数据作为交谈信息。
可选地,根据标题和预处理后的言论文本获取目标数据,包括:
根据预设关键词信息确定言论文本的正文中的交谈行为的数量,并确定各个交谈行为在正文中的位置;
在确定的各个交谈行为中,提取预设关键词信息的前后各预设数量个字符,作为待抽取文本;
在获取每一交谈行为的待抽取文本后,根据获取的待抽取文本提取各个交谈行为中的目标数据。
可选地,根据获取的待抽取文本提取各个交谈行为中的目标数据,包括:
在待抽取文本的前预设数量个字符中,使用预设规则提取其中的日期作为交谈时间;
若抽取到多个日期,则选择距离预设关键词信息最近的日期作为交谈时间。
可选地,根据获取的待抽取文本提取各个交谈行为中的目标数据,包括:在待抽取文本的预设数量个字符中,通过命名实体识别的方式识别出预设数量个字符中的机构类实体,并将机构类实体作为交谈机构;和/或,
根据获取的待抽取文本提取各个交谈行为中的目标数据,包括:在待抽取文本的预设数量个字符中,通过命名实体识别的方式识别出预设数量个字符中的公司类实体,并将公司类实体作为交谈公司。
可选地,在根据获取的待抽取文本提取各个交谈行为中的交谈机构和交谈公司之后,该方法还包括:
选取与预设关键词信息之间文本距离最小的交谈机构或交谈公司,作为交谈机构或交谈公司的选取结果;
若单一待抽取文本中存在多个交谈机构或交谈公司时,将距离预设关键词信息最近的交谈机构或交谈公司作为选取目标;其余交谈机构或交谈公司在确定与其相邻的上一交谈机构或交谈公司为对应的选取目标后,判断其余交谈机构或交谈公司与其相邻的上一选取目标之间的文本距离,若其余交谈机构或交谈公司与其相邻的上一选取目标之间的文本距离小于预设文本距离,则将其余交谈机构或交谈公司作为选取目标;将所有的选取目标作为选取结果。
可选地,根据获取的待抽取文本提取各个交谈行为中的目标数据,包括:
根据预设抽取模板或者采用模型抽取的方式进行交谈问题的抽取,并对抽取结果进行优化。
可选地,将获取的目标数据作为交谈信息之前,该方法还包括:
在获取到若干篇言论数据后,提取每一言论数据的目标数据;
将每一言论数据对应的目标数据进行拼接后,获取一长串;
依次计算若干篇目标数据两两之间的长串编辑距离值,并将每一目标数据与其他所有目标数据之间的长串编辑距离值相加得到距离总值;
将得到的若干个目标数据对应的距离总值由小到大进行排序,依次遍历选择后,选择其中一目标数据的同时,去除与其长串编辑距离值小于阈值的目标数据,直至目标数据选择完毕,将最终选择的结果集作为去重后的最终的交谈信息。
第二方面,本发明实施例提供了一种交谈信息获取装置,该装置包括:
预处理模块,用于获取言论数据的标题,判断标题中是否存在预设关键词信息,若是,则对言论数据的言论文本进行预处理;
目标数据获取模块,用于根据标题和预处理后的言论文本获取目标数据,目标数据包括:交谈机构、交谈时间、交谈公司和交谈问题;
交谈信息获取模块,用于将获取的目标数据作为交谈信息。
第三方面,本发明实施例提供了一种电子设备,该电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
处理器,用于从存储器中读取可执行指令,并执行可执行指令以实现上述方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序用于执行上述方法的步骤。
第五方面,本发明实施例提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述方法的步骤。
在本发明提供的交谈信息获取方法、装置、存储介质和电子设备,获取言论数据的标题,判断标题中是否存在预设关键词信息,若是,则对言论数据的言论文本进行预处理;根据标题和预处理后的言论文本获取目标数据,在对目标数据去重后得到最终的交谈信息,其能够处理各种言论数据,既保证召回率,又有较高的准确率,同时通过对言论数据中的交谈信息进行抽取,可以有效地过滤得到言论中与交谈相关的数据,通过获得交谈关键的四个维度信息:交谈机构、交谈时间、交谈公司和交谈问题,可以直接提供给用户结构化的信息,大大降低了用户对于繁杂的言论数据的阅读成本;另外,通过采用正则表达式结合模型抽取的方式进行信息抽取,不仅保证了较高的处理性能,对于海量的言论数据来说,可以有效地提高数据处理效率,节省人力和物力,同时针对重复的结果进行了有效地去重处理,可以得到质量更高的结构化数据。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本发明一示例性实施例提供的交谈信息获取方法的流程图;
图2为根据本发明一示例性实施例提供的交谈信息获取方法装置的结构示意图;
图3示出了本发明一示例性实施例提供的一种电子设备的示意图;
图4示出了本发明一示例性实施例提供的一种计算机可读介质的示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施方式。虽然附图中显示了本发明的示例性实施方式,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
需要注意的是,除非另有说明,本发明使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
另外,术语“第一”和“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例提供一种交谈信息获取方法、装置、存储介质和电子设备,下面结合附图进行说明。
图1为根据本发明一示例性实施例提供的交谈信息获取方法的流程图,如图1所示,该方法包括以下步骤:
步骤S101:获取言论数据的标题,判断标题中是否存在预设关键词信息,若是,则对言论数据的言论文本进行预处理。
在获取到言论数据后,根据获取到的言论数据,判断言论数据的标题中是否存在预设关键词信息。预设关键词信息为预先选定的关键词,以下以关键词“交谈”为例进行说明。
由于交谈类的言论数据的标题往往存在“交谈”关键词信息,因此通过判断言论数据的标题是否存在“交谈”来将言论数据划分为可能含交谈信息的言论数据和不含交谈信息的言论数据两种。
针对可能含有交谈信息的言论数据,通过对言论数据的标题进行初步判断,能够准确地识别出含有交谈信息的言论数据。
同时,在判断言论数据的标题中含有关键词信息“交谈”后,则对该言论数据执行后续操作;若判断言论数据的标题中不含有关键词信息“交谈”时,则将该言论数据去除,不对该言论数据执行后续操作。
在判断言论数据的标题中含有关键词信息“交谈”后,获取该言论数据的言论文本,对获取的言论文本进行预处理。
在对言论文本进行预处理时,由于言论文本是html格式数据,因此在进行后续步骤前,首先对言论数据进行预处理。
具体地,预处理包括:将html格式数据中的html标签替换为空格或者空字符,将回车替换为空格,将多余空格符去掉,将部分英文符号替换为中文符号等。同时,在将多余空格符去掉时,还将html标签替换的空格,以及回车替换的空格进行去除。
比如在获取到如下言论文本时:
“<div>·
Figure RE-GDA0003907272300000062
·<span>#2机组进相试验项目等的采购(某地)项目采购</span>·
Figure RE-GDA0003907272300000064
·<div>
Figure RE-GDA0003907272300000063
···结果公告·”
其中“·”表示空格,
Figure RE-GDA0003907272300000061
表示回车符,上述言论文本的处理过程为:
首先将html标签和回车符替换为空格:“·····#2机组进相试验项目等的采购(某地)项目采购·········结果公告·”;
然后将多余空格去掉,最终结果为“·#2机组进相试验项目等的采购 (某地)项目采购·结果公告·”。
通过对言论文本进行预处理后,不仅能够获取文本中的关键词信息,还能够有效地降低数据量。
在实际应用场景中,在对言论文本进行预处理时,还可以根据实际情况进行预处理方式的选取与设定,此处不作限定。
步骤S102:根据标题和预处理后的言论文本获取目标数据,目标数据包括:交谈机构、交谈时间、交谈公司和交谈问题。
将一篇言论文本经过上述步骤进行预处理后,根据该篇言论数据的标题和言论文本的正文挖掘出交谈的四个维度的信息:交谈机构、交谈时间、交谈公司、交谈问题。
在一种可选的实现方式中,在根据标题和预处理后的言论文本获取目标数据,确定预处理后的言论文本的正文中的交谈行为时,包括以下步骤:
根据预设关键词信息确定言论文本的正文中的交谈行为的数量,并确定各个交谈行为在正文中的位置;以及
在确定的各个交谈行为中,提取预设关键词信息的前后各预设数量个字符,作为待抽取文本,在获取每一交谈行为的待抽取文本后,根据获取的待抽取文本提取各个交谈行为中的目标数据。
由于一篇言论文本中可能存在多个交谈行为,因此,需要判断每个交谈行为所在的大致位置。在言论文本的正文中,定位“交谈”关键词信息所在的所有位置,然后选取“交谈”前后各150个字符,一共302个字符作为待抽取文本。一篇言论文本可能得到多个302个字符的待抽取文本,每个文本的处理过程相同。
通过选择“交谈”关键词信息前后150个字符,能够准确的获取关键词信息的上下文信息。
在本实施方式中,选取的“交谈”关键词信息前后150个字符为上限值,如果关键词上下文不足150个字符,则选择到边界为止。
同时,上述“交谈”关键词信息前后150个字符的选取方式为优选的字符数量选取值。还可以是选取“交谈”关键词信息前后50、100或200 个字符,“交谈”关键词信息前后的字符选取数量可根据实际情况进行设置,在此只为示例性说明,并非具体限定。
在本实施方式中,定位预设关键词信息的位置通过字符串查找的方式进行,可通过现有库函数完成,例如:直接使用re包的finditer函数实现,具体为:re.finditer('交谈',text),就可以拿到text中“交谈”关键词信息的所有位置。
在一种可选的实现方式中,在根据获取的待抽取文本提取各个交谈行为中的交谈时间时,包括以下步骤:
在待抽取文本的前预设数量个字符中,使用预设规则提取其中的日期作为交谈时间;
若抽取到多个日期,则选择距离预设关键词信息最近的日期作为交谈时间。
在抽取各个交谈行为中的交谈时间时,在待抽取文本的前150字符中,使用正则表达式提取其中的日期,正则表达式为r'(.{,4}[年\-])?(.{,2}[月 \-])?(.{,2}[日号天]?)?'。
如果抽取得到多个日期,则选取最右侧位置的日期作为交谈时间,最右侧位置的日期即为距离关键词信息最近的日期。
由于靠左侧的日期往往是言论发布日期,因此通过选取最右侧位置的日期作为交谈时间,能够极大地提高交谈时间选取时的准确性。
在一种可选的实现方式中,在根据获取的待抽取文本提取各个交谈行为中的交谈机构时,包括以下步骤:
在待抽取文本的预设数量个字符中,通过命名实体识别的方式识别出预设数量个字符中的机构类实体,并将机构类实体作为交谈机构。
在一种可选的实现方式中,在根据获取的待抽取文本提取各个交谈行为中的交谈公司时,包括以下步骤:
在待抽取文本的预设数量个字符中,通过命名实体识别的方式识别出预设数量个字符中的公司类实体,并将公司类实体作为交谈公司。
在进行交谈机构抽取时,在待抽取文本的302个字符中,使用命名实体识别的方式识别出其中包含的机构类实体,具体命名实体识别的方式如下:
模型构建:使用批量标注数据进行模型训练,其中模型采用的是BERT 模型。BERT模型是谷歌提出的一种自然语言处理领域的预训练语言模型。
将中文维基百科的文本数据作为预训练语料输入到BERT模型中,以使BERT模型学习预训练语料中字与其上下文的关联关系,得到预训练后的BERT模型。
在本实施方式中,对于命名实体识别模型构建中使用的BERT模型,可以替换为其他预训练模型,比如百度提出的ERNIE模型等。
在一种可选的实现方式中,在根据获取的待抽取文本提取各个交谈行为中的交谈机构和交谈公司后,对提取到的交谈机构和交谈公司进行优化,包括以下步骤:
选取与预设关键词信息之间文本距离最小的交谈机构或交谈公司,作为交谈机构或交谈公司的选取结果;
若单一待抽取文本中存在多个交谈机构和/或交谈公司时,将距离预设关键词信息最近的交谈机构或交谈公司作为选取目标;其余交谈机构或交谈公司在确定与其相邻的上一交谈机构或交谈公司为对应的选取目标后,判断其余交谈机构或交谈公司与其相邻的上一选取目标之间的文本距离,若其余交谈机构或交谈公司与其相邻的上一选取目标之间的文本距离小于预设文本距离,则将其余交谈机构或交谈公司作为选取目标;将所有的选取目标作为选取结果。
在通过命名实体识别的方式识别出预设数量个字符中的机构类实体和公司类实体,并得到交谈机构和交谈公司后,对得到的交谈机构和交谈公司信息进行优化。
具体的,在实施上述交谈机构和交谈公司的提取步骤之后,初步得到了交谈机构和交谈公司,通过对提取的交谈机构和交谈公司的结果进行优化,以提高提取结果的准确性。
具体优化方式可以为:
优先采用距离“交谈”关键词信息文本位置最近的交谈机构或交谈公司最为选取结果;
若单一待抽取文本中存在多个交谈机构或交谈公司时,将距离预设关键词信息最近的交谈机构或交谈公司作为选取目标;其余交谈机构或交谈公司在确定与其相邻的上一交谈机构或交谈公司为对应的选取目标后,判断其余交谈机构或交谈公司与其相邻的上一选取目标之间的文本距离,若其余交谈机构或交谈公司与其相邻的上一选取目标之间的文本距离小于5,则将其余交谈机构或交谈公司作为选取目标,若其余交谈机构或交谈公司与其相邻的上一选取目标之间的文本距离大于或者等于5,则不予采用;将所有的选取目标作为选取结果。
当多个交谈机构之间或交谈公司之间文本距离大于5时会出现误判情况,因此,本实施例通过设定预设的文本距离进行目标结果的选取,极大地提高了选取结果的准确性。
可以理解的是,上述文本距离5为示例性说明,并非是对文本距离的具体限定。上述方法在实际应用时,文本距离可以3、5、7、9等文本距离值。
在一种可选的实现方式中,在根据任意一待抽取文本提取该待抽取文本中的交谈问题时,根据预设抽取模板或者采用模型抽取的方式进行交谈问题的抽取,并对抽取结果进行优化。
在对约谈问题进行抽取时,约谈问题可以采用规则的方式进行抽取,如设计抽取模版r'。还可以采用模型抽取的方式,具体方式同样可以采用命名实体识别的方法。
由于交谈问题往往是一个长文本,而命名实体识别方法对于长文本的抽取效果不佳,因此需要对抽取的结果进行优化,优化方式为:根据抽取的结果,定位到原始抽取文本中,然后延长结果直至遇到以下标点符号 r'[,,。.?!!?]'。
还可以是在对交谈问题抽取时,采用针对长文本抽取的方法,比如摘要抽取算法等。
步骤S103:将获取的目标数据作为交谈信息。在获取到目标数据中的交谈机构、交谈时间、交谈公司和交谈问题等信息后,将获取到的目标数据作为交谈信息,并进行存储。
在一种可选的实现方式中,在将获取的目标数据作为交谈信息时,包括以下步骤:将目标数据去重后作为交谈信息。
在获取到目标数据后,对目标数据中重复的数据进行去重,从而能够去除重复信息,降低数据量,并保证数据的准确性。
在一种可选的实现方式中,在获取到交谈信息后,对交谈信息去重,包括以下步骤:
在获取到若干篇言论数据后,提取每一言论数据的目标数据;
将每一言论数据的对应的目标数据进行拼接后,获取一长串;
依次计算若干篇目标数据两两之间的长串编辑距离值,并将每一目标数据与其他所有目标数据之间的长串编辑距离值相加得到距离总值;
将得到的若干个目标数据所对应的距离总值由小到大进行排序,依次遍历选择后,选择其中一目标数据的同时,去除与其长串编辑距离值小于阈值的目标数据,直至目标数据选择完毕,将最终选择的结果集作为去重后的最终的交谈信息。
在交谈信息去重时,由于言论数据格式各异,相同的言论内容,发自不同的新闻媒体,内容不完全相同,所以单纯看每个维度的相似度,不容易进行去重工作,基于此,本实施方式提供了上述交谈信息的去重方式。
本实施方式的去重方式具体为:
如一天发布了100篇交谈相关的言论,其中有重复言论。首先针对该 100篇言论进行上述实施方式中的目标数据的抽取。
将每篇言论的抽取结果进行拼接。拼接方式可以为按照交谈时间、交谈机构、交谈公司、交谈问题的顺序拼接成一个长串。
使用编辑距离算法,依次计算100篇言论中两两之间的长串编辑距离值,然后将每篇言论的100个距离值相加得到该言论对应的距离总值。
按照距离总值由小到大排序,然后依次遍历选择,选择每一篇言论的同时,去掉与其距离小于10的言论,直到没有可选的言论为止。最终选择的结果集即为去重后的言论。
需要说明的是,编辑距离值是根据两个不同长串之间的差异的字符计算得到。
可以看出,上述方法能够处理各种言论数据,还极大地提高数据的准确率。
同时,上述方法通过采用正则表达式结合模型抽取的方式进行信息抽取,这保证了较高的处理性能,对于海量的言论数据来说,可以较快的进行工作,节省了人力和物力。
针对重复的结果进行了有效地去重处理,可以得到质量更高的结构化数据。
图2为根据本发明一示例性实施例提供的交谈信息获取方法装置的结构示意图。如图2所示,该装置200,包括:
预处理模块201,用于获取言论数据的标题,判断标题中是否存在预设关键词信息,若是,则对言论数据的言论文本进行预处理;
目标数据获取模块202,用于根据标题和预处理后的言论文本获取目标数据,目标数据包括:交谈机构、交谈时间、交谈公司和交谈问题;
交谈信息获取模块203,用于将获取的目标数据作为交谈信息。
可选地,目标数据获取模块202,具体用于:根据预设关键词信息确定言论文本的正文中的交谈行为的数量,并确定各个交谈行为在正文中的位置;在确定的各个交谈行为中,提取预设关键词信息的前后各预设数量个字符,作为待抽取文本;在获取每一交谈行为的待抽取文本后,根据获取的待抽取文本提取各个交谈行为中的目标数据。
可选地,目标数据获取模块202,具体用于:在待抽取文本的前预设数量个字符中,使用预设规则提取其中的日期作为交谈时间;若抽取到多个日期,则选择距离预设关键词信息最近的日期作为交谈时间。
可选地,目标数据获取模块202,具体用于:在待抽取文本的预设数量个字符中,通过命名实体识别的方式识别出预设数量个字符中的机构类实体,并将机构类实体作为交谈机构;和/或,在待抽取文本的预设数量个字符中,通过命名实体识别的方式识别出预设数量个字符中的公司类实体,并将公司类实体作为交谈公司。
可选地,目标数据获取模块202,还用于:选取与预设关键词信息之间文本距离最小的交谈机构或交谈公司,作为交谈机构或交谈公司的选取结果;若单一待抽取文本中存在多个交谈机构或交谈公司时,将距离预设关键词信息最近的交谈机构或交谈公司作为选取目标;其余交谈机构或交谈公司在确定与其相邻的上一交谈机构或交谈公司为对应的选取目标后,判断其余交谈机构或交谈公司与其相邻的上一选取目标之间的文本距离,若其余交谈机构或交谈公司与其相邻的上一选取目标之间的文本距离小于预设文本距离,则将其余交谈机构或交谈公司作为选取目标;将所有的选取目标作为选取结果。
可选地,目标数据获取模块202,具体用于:根据预设抽取模板或者采用模型抽取的方式进行交谈问题的抽取,并对抽取结果进行优化。
交谈信息获取模块203,还用于:在获取到若干篇言论数据后,提取每一言论数据的目标数据;将每一言论数据对应的目标数据进行拼接后,获取一长串;依次计算若干篇目标数据两两之间的长串编辑距离值,并将每一目标数据与其他所有目标数据之间的长串编辑距离值相加得到距离总值;将得到的若干个目标数据对应的距离总值由小到大进行排序,依次遍历选择后,选择其中一目标数据的同时,去除与其长串编辑距离值小于阈值的目标数据,直至目标数据选择完毕,将最终选择的结果集作为去重后的最终的交谈信息。
由于装置实施例基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
在本发明实施例的一些实施方式中本发明实施例提供的交谈信息获取装置200,与本发明前述实施例提供的交谈信息获取方法出于相同的发明构思,具有相同的有益效果。
本发明实施方式还提供一种与前述实施方式所提供的交谈信息获取方法对应的电子设备,所述电子设备可以是用于服务端的电子设备,例如服务器,包括独立的服务器和分布式服务器集群等,以执行上述交谈信息获取方法;所述电子设备也可以是用于客户端的电子设备,例如手机、笔记本电脑、平板电脑、台式机电脑等,以执行上述交谈信息获取方法。
图3示出了本发明一示例性实施例提供的一种电子设备的示意图,如图3所示,所述电子设备40包括:处理器400,存储器401,总线402和通信接口403,所述处理器400、通信接口403和存储器401通过总线402 连接;所述存储器401中存储有可在所述处理器400上运行的计算机程序,所述处理器400运行所述计算机程序时执行本发明交谈信息获取方法。
其中,存储器401可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口403(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线402可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器401用于存储程序,所述处理器400在接收到执行指令后,执行所述程序,前述本发明实施例任一实施方式揭示的交谈信息获取方法可以应用于处理器400中,或者由处理器400实现。
处理器400可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器400中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器400可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路 (ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器401,处理器400读取存储器401中的信息,结合其硬件完成上述方法的步骤。
本发明实施例提供的电子设备与本发明实施例提供的交谈信息获取方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本发明实施方式还提供一种与前述实施方式所提供的交谈信息获取方法对应的计算机可读介质,请参考图4,其示出的计算机可读存储介质为光盘50,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述交谈信息获取方法。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本发明的上述实施例提供的计算机可读存储介质与本发明实施例提供的交谈信息获取方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
需要说明的是,附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (10)

1.一种交谈信息获取方法,其特征在于,所述方法包括:
获取言论数据的标题,判断所述标题中是否存在预设关键词信息,若是,则对所述言论数据的言论文本进行预处理;
根据标题和预处理后的言论文本获取目标数据,所述目标数据包括:交谈机构、交谈时间、交谈公司和交谈问题;
将获取的所述目标数据作为交谈信息。
2.根据权利要求1所述的交谈信息获取方法,其特征在于,所述根据标题和预处理后的言论文本获取目标数据,包括:
根据所述预设关键词信息确定所述言论文本的正文中的交谈行为的数量,并确定各个所述交谈行为在所述正文中的位置;
在确定的各个所述交谈行为中,提取所述预设关键词信息的前后各预设数量个字符,作为待抽取文本;
在获取每一所述交谈行为的待抽取文本后,根据获取的所述待抽取文本提取各个所述交谈行为中的目标数据。
3.根据权利要求2所述的交谈信息获取方法,其特征在于,所述根据获取的所述待抽取文本提取各个所述交谈行为中的目标数据,包括:
在所述待抽取文本的前预设数量个字符中,使用预设规则提取其中的日期作为所述交谈时间;
若抽取到多个日期,则选择距离所述预设关键词信息最近的日期作为所述交谈时间。
4.根据权利要求2所述的交谈信息获取方法,其特征在于,所述根据获取的所述待抽取文本提取各个所述交谈行为中的目标数据,包括:在所述待抽取文本的预设数量个字符中,通过命名实体识别的方式识别出所述预设数量个字符中的机构类实体,并将所述机构类实体作为所述交谈机构;和/或,
所述根据获取的所述待抽取文本提取各个所述交谈行为中的目标数据,包括:在所述待抽取文本的预设数量个字符中,通过命名实体识别的方式识别出所述预设数量个字符中的公司类实体,并将所述公司类实体作为所述交谈公司。
5.根据权利要求4所述的交谈信息获取方法,其特征在于,在根据获取的所述待抽取文本提取各个所述交谈行为中的交谈机构和交谈公司之后,所述方法还包括:
选取与所述预设关键词信息之间文本距离最小的交谈机构或交谈公司,作为所述交谈机构或交谈公司的选取结果;
若单一所述待抽取文本中存在多个所述交谈机构或交谈公司时,将距离所述预设关键词信息最近的交谈机构或交谈公司作为选取目标;其余交谈机构或交谈公司在确定与其相邻的上一交谈机构或交谈公司为对应的选取目标后,判断所述其余交谈机构或交谈公司与其相邻的上一选取目标之间的文本距离,若所述其余交谈机构或交谈公司与其相邻的所述上一选取目标之间的文本距离小于预设文本距离,则将所述其余交谈机构或交谈公司作为选取目标;将所有的选取目标作为所述选取结果。
6.根据权利要求2所述的交谈信息获取方法,其特征在于,所述根据获取的所述待抽取文本提取各个所述交谈行为中的目标数据,包括:
根据预设抽取模板或者采用模型抽取的方式进行交谈问题的抽取,并对抽取结果进行优化。
7.根据权利要求1所述的交谈信息获取方法,其特征在于,所述将获取的所述目标数据作为交谈信息之前,所述方法还包括:
在获取到若干篇言论数据后,提取每一所述言论数据的目标数据;
将每一所述言论数据对应的目标数据进行拼接后,获取一长串;
依次计算若干篇所述目标数据两两之间的长串编辑距离值,并将每一所述目标数据与其他所有目标数据之间的长串编辑距离值相加得到距离总值;
将得到的若干个所述目标数据对应的距离总值由小到大进行排序,依次遍历选择后,选择其中一所述目标数据的同时,去除与其长串编辑距离值小于阈值的目标数据,直至所述目标数据选择完毕,将最终选择的结果集作为去重后的最终的交谈信息。
8.一种交谈信息获取装置,其特征在于,所述装置包括:
预处理模块,用于获取言论数据的标题,判断所述标题中是否存在预设关键词信息,若是,则对所述言论数据的言论文本进行预处理;
目标数据获取模块,用于根据标题和预处理后的言论文本获取目标数据,所述目标数据包括:交谈机构、交谈时间、交谈公司和交谈问题;
交谈信息获取模块,用于将获取的所述目标数据作为交谈信息。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述可执行指令以实现上述权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-7中任一项所述的方法。
CN202210625927.9A 2022-06-02 2022-06-02 交谈信息获取方法、装置、存储介质和电子设备 Withdrawn CN115409035A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210625927.9A CN115409035A (zh) 2022-06-02 2022-06-02 交谈信息获取方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210625927.9A CN115409035A (zh) 2022-06-02 2022-06-02 交谈信息获取方法、装置、存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN115409035A true CN115409035A (zh) 2022-11-29

Family

ID=84156922

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210625927.9A Withdrawn CN115409035A (zh) 2022-06-02 2022-06-02 交谈信息获取方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN115409035A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007052737A (ja) * 2005-08-19 2007-03-01 Oki Electric Ind Co Ltd 情報処理装置およびコンピュータプログラム
CN110909118A (zh) * 2018-08-28 2020-03-24 中国移动通信集团重庆有限公司 筛选信息的方法、装置、设备和介质
CN114282092A (zh) * 2021-12-07 2022-04-05 咪咕音乐有限公司 信息处理方法、装置、设备及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007052737A (ja) * 2005-08-19 2007-03-01 Oki Electric Ind Co Ltd 情報処理装置およびコンピュータプログラム
CN110909118A (zh) * 2018-08-28 2020-03-24 中国移动通信集团重庆有限公司 筛选信息的方法、装置、设备和介质
CN114282092A (zh) * 2021-12-07 2022-04-05 咪咕音乐有限公司 信息处理方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN113807098B (zh) 模型训练方法和装置、电子设备以及存储介质
CN110888968A (zh) 客服对话意图分类方法及装置、电子设备及介质
US20220337538A1 (en) Customized message suggestion with user embedding vectors
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
CN110427487B (zh) 一种数据标注方法、装置及存储介质
CN107341143B (zh) 一种句子连贯性判断方法及装置和电子设备
CN111967264A (zh) 一种命名实体识别方法
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN110738055A (zh) 文本的实体识别方法、设备及存储介质
CN112149387A (zh) 财务数据的可视化方法、装置、计算机设备及存储介质
CN111291551B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN113486178A (zh) 文本识别模型训练方法、文本识别方法、装置以及介质
CN115392235A (zh) 字符匹配方法、装置、电子设备及可读存储介质
CN111354354B (zh) 一种基于语义识别的训练方法、训练装置及终端设备
CN117216279A (zh) Pdf文件的文本提取方法、装置、设备及存储介质
CN115409035A (zh) 交谈信息获取方法、装置、存储介质和电子设备
CN114154480A (zh) 信息提取方法、装置、设备和存储介质
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质
CN113761916A (zh) 文本中信息的提取方法及电子设备
CN115357688B (zh) 企业名单信息获取方法、装置、存储介质和电子设备
CN111782601A (zh) 电子文件的处理方法、装置、电子设备及机器可读介质
US11783112B1 (en) Framework agnostic summarization of multi-channel communication
CN116340263B (zh) 一种基于机器识别的word文档转换方法、装置及存储介质
CN110232189B (zh) 语义解析方法、装置、设备和存储介质
CN114970493A (zh) 生成标记语料的方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20221129

WW01 Invention patent application withdrawn after publication