CN114091431A - 事项信息提取方法、装置、计算机设备及存储介质 - Google Patents
事项信息提取方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN114091431A CN114091431A CN202111413034.XA CN202111413034A CN114091431A CN 114091431 A CN114091431 A CN 114091431A CN 202111413034 A CN202111413034 A CN 202111413034A CN 114091431 A CN114091431 A CN 114091431A
- Authority
- CN
- China
- Prior art keywords
- sentence
- text
- entity
- processed
- statement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims description 27
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000012216 screening Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- 238000012512 characterization method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例属于人工智能领域,涉及一种事项信息提取方法、装置、计算机设备及存储介质,方法包括:获取包含至少一个第一语句的待处理文本;分别计算各第一语句与预设的各背景词的相似度;根据相似度对各第一语句进行筛选,得到至少一个第二语句;计算各第二语句的信息量;对各第二语句进行实体识别,得到实体识别结果;根据得到的信息量和实体识别结果对各第二语句进行筛选,得到待处理文本中的事项信息。本申请能够自动从文本中筛选出事项信息,提高了事项信息获取效率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种事项信息提取方法、装置、计算机设备及存储介质。
背景技术
在人们的日常生活中,为了推动、达成某些事项,通常会签署计划协议、备忘录等协议文件。在后续推动事项落实的过程中,常常需要根据协议文件中的事项信息对事项进行督办。
当前通常都是依靠人工处理协议文件,从协议文件中找出事项信息。然而,协议文件往往篇幅较长,且其中掺杂了大量套话、背景介绍等缺乏实质内容的语句,需要花费大量的人工精力进行处理,导致事项信息的获取效率较低。
发明内容
本申请实施例的目的在于提出一种事项信息提取方法、装置、计算机设备及存储介质,以解决事项信息获取效率较低的问题。
为了解决上述技术问题,本申请实施例提供一种事项信息提取方法,采用了如下所述的技术方案:
获取包含至少一个第一语句的待处理文本;
分别计算各第一语句与预设的各背景词的相似度;
根据所述相似度对所述各第一语句进行筛选,得到至少一个第二语句;
计算各第二语句的信息量;
对所述各第二语句进行实体识别,得到实体识别结果;
根据得到的信息量和实体识别结果对所述各第二语句进行筛选,得到所述待处理文本中的事项信息。
为了解决上述技术问题,本申请实施例还提供一种事项信息提取装置,采用了如下所述的技术方案:
文本获取模块,用于获取包含至少一个第一语句的待处理文本;
相似度计算模块,用于分别计算各第一语句与预设的各背景词的相似度;
第一筛选模块,用于根据所述相似度对所述各第一语句进行筛选,得到至少一个第二语句;
信息量计算模块,用于计算各第二语句的信息量;
实体识别模块,用于对所述各第二语句进行实体识别,得到实体识别结果;
第二筛选模块,用于根据得到的信息量和实体识别结果对所述各第二语句进行筛选,得到所述待处理文本中的事项信息。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
获取包含至少一个第一语句的待处理文本;
分别计算各第一语句与预设的各背景词的相似度;
根据所述相似度对所述各第一语句进行筛选,得到至少一个第二语句;
计算各第二语句的信息量;
对所述各第二语句进行实体识别,得到实体识别结果;
根据得到的信息量和实体识别结果对所述各第二语句进行筛选,得到所述待处理文本中的事项信息。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
获取包含至少一个第一语句的待处理文本;
分别计算各第一语句与预设的各背景词的相似度;
根据所述相似度对所述各第一语句进行筛选,得到至少一个第二语句;
计算各第二语句的信息量;
对所述各第二语句进行实体识别,得到实体识别结果;
根据得到的信息量和实体识别结果对所述各第二语句进行筛选,得到所述待处理文本中的事项信息。
与现有技术相比,本申请实施例主要有以下有益效果:在获取到待处理文本后,计算待处理文本中第一语句与预设的各背景词的相似度;背景词是背景描述相关的短语,根据第一语句与各背景词的相似度,可以删除掉作为背景描述出现的无意义的语句,得到第二语句;再对第二语句进行信息量的计算以及实体识别,根据信息量和实体识别结果,可以删除信息量较低且不包含有意义实体的第二语句,从而可以将剩余的具有一定信息量且包含所需实体的第二语句作为事项信息;本申请能够自动从文本中筛选出事项信息,提高了事项信息获取效率。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的事项信息提取方法的一个实施例的流程图;
图3是根据本申请的事项信息提取装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的事项信息提取方法一般由服务器执行,相应地,事项信息提取装置一般设置于服务器中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的事项信息提取方法的一个实施例的流程图。所述的事项信息提取方法,包括以下步骤:
步骤S201,获取包含至少一个第一语句的待处理文本。
在本实施例中,事项信息提取方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式与终端进行通信。需要指出的是,上述无线连接方式可以包括但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
具体地,服务器首先需要获取待处理文本,以便对待处理文本进行处理,得到事项信息。待处理文本中的句子为第一语句,待处理文本中包含至少一个第一语句。服务器可以一次性获取多个待处理文本。
步骤S202,分别计算各第一语句与预设的各背景词的相似度。
其中,背景词可以是预先设置的背景描述相关的短语,例如,背景词可以是“本着友好协商的精神”、“双方达成一致”等短语。
具体地,对于待处理文本中的每一个第一语句,分别计算第一语句与各背景词之间的相似度。可以通过自然语言处理领域中的word2vec等模型,将第一语句和各背景词转换成对应的表征向量,通过计算表征向量之间的余弦相似度,得到第一语句与各背景词的语义相似度。
在一个实施例中,可以先通过聚类算法确定待处理文本所属的文本簇。通过聚类算法对多个文本进行聚类得到至少一个文本簇,每个文本簇中包含至少一个文本。不同的文本簇描述的文本内容可能存在差异,可以根据不同的文本簇预先设置不同的背景词。因此,可以根据待处理文本所属的文本簇选择相对应的背景词,从而提高待处理文本中背景信息计算的准确性。
步骤S203,根据相似度对各第一语句进行筛选,得到至少一个第二语句。
具体地,得到的相似度表征了第一语句与背景词的语义相似度,从而可以根据相似度确定第一语句是否为背景描述之类的信息。当确认第一语句是背景描述之类的信息时,表明第一语句可能缺少实用价值,可以将其删除,剩余至少一个第二语句。
进一步的,上述步骤S203可以包括:对于每个第一语句,将第一语句与各背景词的相似度分别与预设的相似度阈值相比对,得到比对结果;当根据比对结果确定存在大于相似度阈值的相似度时,将第一语句标记为待删除语句;删除待处理文本中的各待删除语句,得到至少一个第二语句。
其中,相似度阈值可以是预先设置的一个相似度数值。
具体地,获取预设的相似度阈值。背景词可以有多个,对于一个第一语句,需要计算第一语句与每个背景词之间相似度。然后将每个相似度分别于相似度阈值相比对,以进行大小比较,得到比对结果。
背景词可以有多个,将相似度与相似度阈值相比较时,所有背景词可以共享一个相似度阈值,也可以根据不同的背景词设置不同的相似度阈值。
当根据比对结果确定第一语句所对应的多个相似度中,存在一个数值大于相似度阈值的相似度,表明该第一语句与某个背景词相似性过高,可以将该第一语句标记为待删除语句。然后从待处理文本中,删除所有的待删除语句,剩余的句子被标记为第二语句。
本实施例中,将相似度与预设的相似度阈值相比对,当存在大于相似度阈值的相似度时,即可确定第一语句与某个背景词相似性过高,可以将其删除,得到待处理文本中非背景描述的第二语句。
步骤S204,计算各第二语句的信息量。
具体地,信息量是对第二语句所包含信息多少的度量。可以先对第二语句进行分词,根据分词结果计算第二语句的信息量。信息量数值越高,表明第二语句实用价值越高。
步骤S205,对各第二语句进行实体识别,得到实体识别结果。
具体地,对第二语句进行实体识别,识别第二语句中的实体以及实体类型,得到实体识别结果。通过实体识别可以发现第二语句中的命名实体。命名实体(named entity)可以是人名、机构名、地名以及其他以名称为标识的实体。更广泛的实体还包括数字、日期、货币、地址等等。
步骤S206,根据得到的信息量和实体识别结果对各第二语句进行筛选,得到待处理文本中的事项信息。
具体地,根据信息量,可以确定第二语句信息价值的大小;根据实体识别结果可以确定第二语句中是否包含所需类型的实体。因此,可以结合信息量和实体识别结果对第二语句进行筛选,保留具有一定信息量和所需实体的第二语句,这些第二语句具有一定的实用价值,可以作为待处理文本中的事项信息。
在一个实施例中,获取预设的信息量阈值,当第二语句的信息量大于信息量阈值,且第二语句中包含实体时,可以将第二语句作为事项信息。
事项信息可以独立于待处理文本,单独进行输出展示;或者,将事项信息在待处理文本中进行突出显示,然后,将具有突出显示效果的待处理文本进行输出展示。
本实施例中,在获取到待处理文本后,计算待处理文本中第一语句与预设的各背景词的相似度;背景词是背景描述相关的短语,根据第一语句与各背景词的相似度,可以删除掉作为背景描述出现的无意义的语句,得到第二语句;再对第二语句进行信息量的计算以及实体识别,根据信息量和实体识别结果,可以删除信息量较低且不包含有意义实体的第二语句,从而可以将剩余的具有一定信息量且包含所需实体的第二语句作为事项信息;本申请能够自动从文本中筛选出事项信息,提高了事项信息获取效率。
进一步的,上述步骤S204可以包括:对每个第二语句进行分词处理得到至少一个子词;通过聚类算法确定待处理文本所属的文本簇;根据文本簇所对应的文本簇语料库确定各子词的第一词频率,并根据预设的通用语料库确定各子词的第二词频率;基于得到的第一词频率和第二次频率计算第二语句的信息量。
具体地,在计算信息量时,先对第二语句进行分词处理,得到至少一个子词。然后,通过聚类算法确定待处理文本所属的文本簇。
文本簇是对多个文本进行聚类得到,一个文本簇中可以包含多个文本。每个文本簇都具有对应的文本簇语料库,是依据文本簇所包含的文本构建得到的。
在一个实施例中,可以一次性获取多个待处理文本,然后对多个待处理文本进行聚类得到至少一个文本簇,然后分别生成每个文本簇的文本簇语料库。
在一个实施例中,服务器中已经预存了一定数量的文本,并对预存的文本进行聚类得到多个文本簇。在得到待处理文本后,基于聚类算法确定待处理文本所属的文本簇,然后将待处理文本加入到文本簇所对应的文本簇语料库中,以对文本簇语料库进行更新。
采用的聚类算法可以是K-means聚类算法(k-means clustering algorithm,k均值聚类算法,是一种迭代求解的聚类分析算法),也可以是KNN算法(K-Nearest Neighbor,K最近邻分类算法)。
本申请中还应用到了通用语料库。通用语料库可以预先依据各种类型的文本构建。例如,可以对某个综合新闻网站进行爬取,以构建得到通用语料库。
可以计算每个子词在文本簇语料库中出现的频率,得到各子词的第一词频率;再计算每个子词在通用语料库中出现的频率,得到各子词的第二词频率。基于第二语句中各子词的第一词频率和第二词频率,可以计算第二语句的信息量。
在一个实施例中,信息量的计算公式如下:
本实施例中,先对第二语句分词得到多个子词,然后确定待处理文本所属的文本簇,根据文本簇所对应的文本簇语料库和通用语料库计算各子词的第一词频率和第二词频率,通过不同的语料库综合衡量了各子词,从而提高了最终得到的信息量的科学性。
进一步的,上述步骤S206可以包括:根据得到的信息量和实体识别结果,删除信息量小于预设信息量阈值且不包含实体的第二语句,得到至少一个第三语句;对于各第三语句,根据第三语句的实体识别结果确定第三语句中的命名实体;根据预设的命名实体词典,将第三语句中的命名实体调整为标准命名实体,得到第四语句;根据预设的语句结构调整策略对第四语句进行处理,得到待处理文本中的事项信息。
其中,信息量阈值可以是预先设置的一个信息量数值。
具体地,可以获取预设的信息量阈值,将第二语句的信息量与信息量阈值相比较,当信息量小于信息量阈值,且根据实体识别结果确定第二语句中不包含实体时,表明该第二语句不具备实用价值,可以予以删除,剩余语句即为第三语句。
第三语句可以作为事项信息进行输出。然而,为了提高第三语句的可读性和语意连贯性,可以继续对第三语句进行处理。在待处理文本中,由于书写时的不规范,可能存在大量缩写的实体,例如:“中国农业银行股份有限公司”被缩写为“中国农业银行”,“中国农业银行上海分行”被缩写为“农行上海分行”。
为了避免出现事项参与主体的表述不清晰,先默认识别出的命名实体为缩略语。然后获取预设的命名实体词典,命名实体词典中记录了大量的命名实体,包括标准命名实体(全程、标准状态的实体名称)及其以各种缩略语表述的命名实体。通过命名实体词典,可以查询到第三语句中命名实体所对应的标准命名实体。然后令标准命名实体替换第三语句中对应的命名实体,得到第四语句。
第四语句的表述可能存在不规范,因此,可以根据预设的语句调整策略对第四语句继续进行优化,例如,当识别到第四语句中存在倒装表述时,将第四语句调整为正常表述的形式;或者,通过句法分析算法识别第四语句中的句法成分(句法成分有八种,即主语、谓语、宾语、动语,定语、状语,补语和中心语),然后将不同句法成分所对应的短语以不同形式进行突出显示,或者,对第四语句进行精简,仅保留主语、谓语、宾语等句子内容。
对第四语句处理完成后,即可得到事项信息。
本实施例中,先根据信息量和实体识别结果对第二语句进行筛选,得到具有实用价值的第三语句;然后,通过命名实体词典将语句中的命名实体调整为标准命名实体,通过语句结构调整策略对第四语句进行调整,以提高事项信息的可读性和语意连贯性。
进一步的,上述根据预设的命名实体词典,将第三语句中的命名实体调整为标准命名实体,得到第四语句的步骤可以包括:计算命名实体与预设的命名实体词典中各已存命名实体间的相似度;选取最高相似度所对应的已存命名实体作为桥接命名实体;在命名实体词典所记录的桥接命名实体的同类别命名实体中,选取长度最长的已存命名实体作为标准命名实体;将第三语句中的命名实体替换为标准命名实体,得到第四语句。
具体地,可以将第三语句中的命名实体和命名实体词典中的各已存命名实体转化为表征向量。例如,通过word2vec模型生成表征向量。然后,通过计算表征向量之间的余弦相似度,得到第三语句中的命名实体和各已存命名实体之间的语义相似度。
命名实体词典中的已存命名实体预先经过分类,指向同一概念的命名实体被标记为同一类别,例如,“AB大学”和“A大”属于同一类别。在同一类别的已存命名实体中,存在全称以及各种缩略语,可以将最长的已存命名实体作为全称,即标准命名实体。
选取最高相似度所对应的已存命名实体作为桥接命名实体。桥接命名实体并不一定是标准命名实体,但是会以桥接实体作为桥梁,在桥接实体的同类别命名实体中,选取长度最长的已存命名实体作为标准命名实体。然后将第三语句中的命名实体替换为标准命名实体,得到第四语句。
当第三语句中的命名实体长度超过命名实体词典中长度最长的已存命名实体时,可以不对第三语句中的命名实体进行替换。
本实施例中,基于相似度在命名实体词典中查找到最相似的桥接实体后,再查找标准命名实体,并将第三语句中的命名实体替换为标准命名实体,从而规范语句表述。
进一步的,上述根据预设的语句结构调整策略对第四语句进行处理,得到待处理文本中的事项信息的步骤可以包括:识别第四语句的句法结构,得到句法结构识别结果;当根据句法结构识别结果确定第四语句包含预设类别的句法结构时,将第四语句确定为待处理文本中的事项信息;当根据句法结构识别结果确定第四语句不包含主语结构时,根据第四语句所对应的第一语句在待处理文本中的位置,逆序查找第四语句的主语;根据查找到的主语和第四语句生成待处理文本中的事项信息。
具体地,对第四语句进行句法识别,得到句法结构识别结果,句法结构识别结果可以记录第四语句中的句法结构(又可以叫句法成分),包括:主语、谓语、宾语、动语,定语、状语,补语和中心语。
当根据句法结构识别结果确定第四语句包含预设类别的句法结构时,可以将第四语句作为待处理文本中的事项信息。在一个实施例中,当第四语句中同时包含主语、谓语和宾语时,即可将第四语句作为事项信息。
当根据句法结构识别结果确定第四语句中不包含主语结构时,为了使语句表述清晰、提高可读性,需要进行主语查找的操作。在主语查找时,将第四语句所对应的第一语句在待处理文本中的位置作为起始位置,在待处理文本中逆序查找第四语句的主语。在查找到主语后,将主语与第四语句进行结合,得到事项信息。
本实施例中,对第四语句进行句法结构的识别,当识别到第四语句包含预设类别的句法结构时将第四语句确定为事项信息;当识别到第四语句缺少主语时,查找第四语句的主语,再生成事项信息,提高了事项信息的可读性和完整性。
进一步的,上述当根据句法结构识别结果确定第四语句不包含主语结构时,根据第四语句所对应的第一语句在待处理文本中的位置,逆序查找第四语句的主语的步骤包括:当根据句法结构识别结果确定第四语句不包含主语结构时,根据第四语句所对应的第一语句在待处理文本中的位置,逆序查找包含主语结构的短句;将查找到的第一个包含主语结构的短句中的主语,确定为第四语句的主语。
其中,短句可以是待处理文本中,处于逗号、分号、顿号等分隔符之间的短语。
具体地,当根据句法结构识别结果确定第四语句中不包含主语结构时,将第四语句所对应的第一语句在待处理文本中的位置作为出发点,逆序查找包含主语结构的短句。在一个实施例中,可以将逆序查找到的第一个包含主语结构的短句中的主语,确定为第四语句的主语。
举例说明,第四语句“开设5家总面积不小于1万平米的大型超市”没有主语,所以从这个第四语句在待处理文本中所对应的第一语句开始,逆序识别出现顺序更早的语句的句法成分。假设待处理文本为“A公司决定在2025年之前,计划在贵阳投资约4500万元。开设5家总面积不小于1万平米的大型超市”,则,在“A公司决定在2025年之前,计划在贵阳投资约4500万元。”中找到主语“A公司”,完成主语查找过程。再将主语“A公司”和第四语句“开设5家总面积不小于1万平米的大型超市”结合,生成事项语句“A公司开设5家总面积不小于1万平米的大型超市”。
在逆序查找时,可能出现并列主语的情况。例如“A、B和C公司各出资1000万元、500万元和300万元,决定在2025年之前,在贵阳市开设5家总面积不小于1万平米的大型超市”。因此,第四语句也可以出现多主语。根据语言表达习惯,一个句子没有主语时,离句子最近的主语通常为句子缺少的主语,否则句子会出现歧义。
本实施例中,将逆序查找到的第一个包含主语结构的短句中的主语确定为第四语句的主语,确保了第四语句结构的完整性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种事项信息提取装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的事项信息提取装置300包括:文本获取模块301、相似度计算模块302、第一筛选模块303、信息量计算模块304、实体识别模块305以及第二筛选模块306,其中:
文本获取模块301,用于获取包含至少一个第一语句的待处理文本。
相似度计算模块302,用于分别计算各第一语句与预设的各背景词的相似度。
第一筛选模块303,用于根据相似度对各第一语句进行筛选,得到至少一个第二语句。
信息量计算模块304,用于计算各第二语句的信息量。
实体识别模块305,用于对各第二语句进行实体识别,得到实体识别结果。
第二筛选模块306,用于根据得到的信息量和实体识别结果对各第二语句进行筛选,得到待处理文本中的事项信息。
本实施例中,在获取到待处理文本后,计算待处理文本中第一语句与预设的各背景词的相似度;背景词是背景描述相关的短语,根据第一语句与各背景词的相似度,可以删除掉作为背景描述出现的无意义的语句,得到第二语句;再对第二语句进行信息量的计算以及实体识别,根据信息量和实体识别结果,可以删除信息量较低且不包含有意义实体的第二语句,从而可以将剩余的具有一定信息量且包含所需实体的第二语句作为事项信息;本申请能够自动从文本中筛选出事项信息,提高了事项信息获取效率。
在本实施例的一些可选的实现方式中,第一筛选模块303可以包括:比对子模块、语句标记子模块以及语句删除子模块,其中:
比对子模块,用于对于每个第一语句,将第一语句与各背景词的相似度分别与预设的相似度阈值相比对,得到比对结果。
语句标记子模块,用于当根据比对结果确定存在大于相似度阈值的相似度时,将第一语句标记为待删除语句。
语句删除子模块,用于删除待处理文本中的各待删除语句,得到至少一个第二语句。
本实施例中,将相似度与预设的相似度阈值相比对,当存在大于相似度阈值的相似度时,即可确定第一语句与某个背景词相似性过高,可以将其删除,得到待处理文本中非背景描述的第二语句。
在本实施例的一些可选的实现方式中,信息量计算模块304可以包括:语句分词子模块、文本簇确定子模块、词频率确定子模块以及信息量计算子模块,其中:
语句分词子模块,用于对每个第二语句进行分词处理得到至少一个子词。
文本簇确定子模块,用于通过聚类算法确定待处理文本所属的文本簇。
词频率确定子模块,用于根据文本簇所对应的语句簇语料库确定各子词的第一词频率,并根据预设的通用语料库确定各子词的第二词频率。
信息量计算子模块,用于基于得到的第一词频率和第二次频率计算第二语句的信息量。
本实施例中,先对第二语句分词得到多个子词,然后确定待处理文本所属的文本簇,根据文本簇所对应的文本簇语料库和通用语料库计算各子词的第一词频率和第二词频率,通过不同的语料库综合衡量了各子词,从而提高了最终得到的信息量的科学性。
在本实施例的一些可选的实现方式中,第二筛选模块306可以包括:删除子模块、实体确定子模块、实体调整子模块以及语句调整子模块,其中:
删除子模块,用于根据得到的信息量和实体识别结果,删除信息量小于预设信息量阈值且不包含实体的第二语句,得到至少一个第三语句。
实体确定子模块,用于对于各第三语句,根据第三语句的实体识别结果确定第三语句中的命名实体。
实体调整子模块,用于根据预设的命名实体词典,将第三语句中的命名实体调整为标准命名实体,得到第四语句。
语句调整子模块,用于根据预设的语句结构调整策略对第四语句进行处理,得到待处理文本中的事项信息。
本实施例中,先根据信息量和实体识别结果对第二语句进行筛选,得到具有实用价值的第三语句;然后,通过命名实体词典将语句中的命名实体调整为标准命名实体,通过语句结构调整策略对第四语句进行调整,以提高事项信息的可读性和语意连贯性。
在本实施例的一些可选的实现方式中,实体调整子模块可以包括:相似度计算单元、桥接选取单元、标准选取单元以及实体替换单元,其中:
相似度计算单元,用于计算命名实体与预设的命名实体词典中各已存命名实体间的相似度。
桥接选取单元,用于选取最高相似度所对应的已存命名实体作为桥接命名实体。
标准选取单元,用于在命名实体词典所记录的桥接命名实体的同类别命名实体中,选取长度最长的命名实体作为标准命名实体。
实体替换单元,用于将第三语句中的命名实体替换为标准命名实体,得到第四语句。
本实施例中,基于相似度在命名实体词典中查找到最相似的桥接实体后,再查找标准命名实体,并将第三语句中的命名实体替换为标准命名实体,从而规范语句表述。
在本实施例的一些可选的实现方式中,语句调整子模块可以包括:结构识别单元、语句确定单元、主语查找单元以及信息生成单元,其中:
结构识别单元,用于识别第四语句的句法结构,得到句法结构识别结果。
语句确定单元,用于当根据句法结构识别结果确定第四语句包含预设类别的句法结构时,将第四语句确定为待处理文本中的事项信息。
主语查找单元,用于当根据句法结构识别结果确定第四语句不包含主语结构时,根据第四语句所对应的第一语句在待处理文本中的位置,逆序查找第四语句的主语。
信息生成单元,用于根据查找到的主语和第四语句生成待处理文本中的事项信息。
本实施例中,对第四语句进行句法结构的识别,当识别到第四语句包含预设类别的句法结构时将第四语句确定为事项信息;当识别到第四语句缺少主语时,查找第四语句的主语,再生成事项信息,提高了事项信息的可读性和完整性。
在本实施例的一些可选的实现方式中,主语查找单元可以包括:短句查找子单元以及主语确定子单元,其中:
短句查找子单元,用于当根据句法结构识别结果确定第四语句不包含主语结构时,根据第四语句所对应的第一语句在待处理文本中的位置,逆序查找包含主语结构的短句。
主语确定子单元,用于将查找到的第一个包含主语结构的短句中的主语,确定为第四语句的主语。
本实施例中,将逆序查找到的第一个包含主语结构的短句中的主语确定为第四语句的主语,确保了第四语句结构的完整性。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如事项信息提取方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述事项信息提取方法的计算机可读指令。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本实施例中提供的计算机设备可以执行上述事项信息提取方法。此处事项信息提取方法可以是上述各个实施例的事项信息提取方法。
本实施例中,在获取到待处理文本后,计算待处理文本中第一语句与预设的各背景词的相似度;背景词是背景描述相关的短语,根据第一语句与各背景词的相似度,可以删除掉作为背景描述出现的无意义的语句,得到第二语句;再对第二语句进行信息量的计算以及实体识别,根据信息量和实体识别结果,可以删除信息量较低且不包含有意义实体的第二语句,从而可以将剩余的具有一定信息量且包含所需实体的第二语句作为事项信息;本申请能够自动从文本中筛选出事项信息,提高了事项信息获取效率。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的事项信息提取方法的步骤。
本实施例中,在获取到待处理文本后,计算待处理文本中第一语句与预设的各背景词的相似度;背景词是背景描述相关的短语,根据第一语句与各背景词的相似度,可以删除掉作为背景描述出现的无意义的语句,得到第二语句;再对第二语句进行信息量的计算以及实体识别,根据信息量和实体识别结果,可以删除信息量较低且不包含有意义实体的第二语句,从而可以将剩余的具有一定信息量且包含所需实体的第二语句作为事项信息;本申请能够自动从文本中筛选出事项信息,提高了事项信息获取效率。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种事项信息提取方法,其特征在于,包括下述步骤:
获取包含至少一个第一语句的待处理文本;
分别计算各第一语句与预设的各背景词的相似度;
根据所述相似度对所述各第一语句进行筛选,得到至少一个第二语句;
计算各第二语句的信息量;
对所述各第二语句进行实体识别,得到实体识别结果;
根据得到的信息量和实体识别结果对所述各第二语句进行筛选,得到所述待处理文本中的事项信息。
2.根据权利要求1所述的事项信息提取方法,其特征在于,所述根据所述相似度对所述各第一语句进行筛选,得到至少一个第二语句的步骤包括:
对于每个第一语句,将第一语句与所述各背景词的相似度分别与预设的相似度阈值相比对,得到比对结果;
当根据所述比对结果确定存在大于所述相似度阈值的相似度时,将所述第一语句标记为待删除语句;
删除所述待处理文本中的各待删除语句,得到至少一个第二语句。
3.根据权利要求1所述的事项信息提取方法,其特征在于,所述计算各第二语句的信息量的步骤包括:
对每个第二语句进行分词处理得到至少一个子词;
通过聚类算法确定所述待处理文本所属的文本簇;
根据所述文本簇所对应的文本簇语料库确定各子词的第一词频率,并根据预设的通用语料库确定所述各子词的第二词频率;
基于得到的第一词频率和第二次频率计算所述第二语句的信息量。
4.根据权利要求1所述的事项信息提取方法,其特征在于,所述根据得到的信息量和实体识别结果对所述各第二语句进行筛选,得到所述待处理文本中的事项信息的步骤包括:
根据得到的信息量和实体识别结果,删除信息量小于预设信息量阈值且不包含实体的第二语句,得到至少一个第三语句;
对于各第三语句,根据第三语句的实体识别结果确定所述第三语句中的命名实体;
根据预设的命名实体词典,将所述第三语句中的命名实体调整为标准命名实体,得到第四语句;
根据预设的语句结构调整策略对所述第四语句进行处理,得到所述待处理文本中的事项信息。
5.根据权利要求4所述的事项信息提取方法,其特征在于,所述根据预设的命名实体词典,将所述第三语句中的命名实体调整为标准命名实体,得到第四语句的步骤包括:
计算所述命名实体与预设的命名实体词典中各已存命名实体间的相似度;
选取最高相似度所对应的已存命名实体作为桥接命名实体;
在所述命名实体词典所记录的所述桥接命名实体的同类别命名实体中,选取长度最长的已存命名实体作为标准命名实体;
将所述第三语句中的命名实体替换为所述标准命名实体,得到第四语句。
6.根据权利要求4所述的事项信息提取方法,其特征在于,所述根据预设的语句结构调整策略对所述第四语句进行处理,得到所述待处理文本中的事项信息的步骤包括:
识别所述第四语句的句法结构,得到句法结构识别结果;
当根据所述句法结构识别结果确定所述第四语句包含预设类别的句法结构时,将所述第四语句确定为所述待处理文本中的事项信息;
当根据所述句法结构识别结果确定所述第四语句不包含主语结构时,根据所述第四语句所对应的第一语句在所述待处理文本中的位置,逆序查找所述第四语句的主语;
根据查找到的主语和所述第四语句生成所述待处理文本中的事项信息。
7.根据权利要求6所述的事项信息提取方法,其特征在于,所述当根据所述句法结构识别结果确定所述第四语句不包含主语结构时,根据所述第四语句所对应的第一语句在所述待处理文本中的位置,逆序查找所述第四语句的主语的步骤包括:
当根据所述句法结构识别结果确定所述第四语句不包含主语结构时,根据所述第四语句所对应的第一语句在所述待处理文本中的位置,逆序查找包含主语结构的短句;
将查找到的第一个包含主语结构的短句中的主语,确定为所述第四语句的主语。
8.一种事项信息提取装置,其特征在于,包括:
文本获取模块,用于获取包含至少一个第一语句的待处理文本;
相似度计算模块,用于分别计算各第一语句与预设的各背景词的相似度;
第一筛选模块,用于根据所述相似度对所述各第一语句进行筛选,得到至少一个第二语句;
信息量计算模块,用于计算各第二语句的信息量;
实体识别模块,用于对所述各第二语句进行实体识别,得到实体识别结果;
第二筛选模块,用于根据得到的信息量和实体识别结果对所述各第二语句进行筛选,得到所述待处理文本中的事项信息。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的事项信息提取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的事项信息提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111413034.XA CN114091431A (zh) | 2021-11-25 | 2021-11-25 | 事项信息提取方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111413034.XA CN114091431A (zh) | 2021-11-25 | 2021-11-25 | 事项信息提取方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114091431A true CN114091431A (zh) | 2022-02-25 |
Family
ID=80304500
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111413034.XA Pending CN114091431A (zh) | 2021-11-25 | 2021-11-25 | 事项信息提取方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114091431A (zh) |
-
2021
- 2021-11-25 CN CN202111413034.XA patent/CN114091431A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4141733A1 (en) | Model training method and apparatus, electronic device, and storage medium | |
CN112215008B (zh) | 基于语义理解的实体识别方法、装置、计算机设备和介质 | |
CN113722438B (zh) | 基于句向量模型的句向量生成方法、装置及计算机设备 | |
CN112395420A (zh) | 视频内容检索方法、装置、计算机设备及存储介质 | |
WO2021218027A1 (zh) | 智能面试中专业术语的提取方法、装置、设备及介质 | |
CN112287069A (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN109947903B (zh) | 一种成语查询方法及装置 | |
US20220121668A1 (en) | Method for recommending document, electronic device and storage medium | |
CN115982376A (zh) | 基于文本、多模数据和知识训练模型的方法和装置 | |
CN114547315A (zh) | 一种案件分类预测方法、装置、计算机设备及存储介质 | |
CN113434636A (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN110704608A (zh) | 文本主题生成方法、装置和计算机设备 | |
CN111814481B (zh) | 购物意图识别方法、装置、终端设备及存储介质 | |
CN114090792A (zh) | 基于对比学习的文档关系抽取方法及其相关设备 | |
CN114022891A (zh) | 扫描文本的关键信息提取方法、装置、设备及存储介质 | |
CN110347696B (zh) | 数据转换方法、装置、计算机设备以及存储介质 | |
CN114637831A (zh) | 基于语义分析的数据查询方法及其相关设备 | |
CN111259259B (zh) | 大学生新闻推荐方法、装置、设备及存储介质 | |
CN114091431A (zh) | 事项信息提取方法、装置、计算机设备及存储介质 | |
CN114168715A (zh) | 生成目标数据集的方法、装置、设备及存储介质 | |
CN114218431A (zh) | 视频搜索方法、装置、电子设备以及存储介质 | |
CN112559739A (zh) | 电力设备绝缘状态数据处理方法 | |
CN113486148A (zh) | Pdf文件的转换方法、装置、电子设备以及计算机可读介质 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN112632981A (zh) | 一种新词发现方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |