CN111753043B - 文档数据处理方法、装置和存储介质 - Google Patents
文档数据处理方法、装置和存储介质 Download PDFInfo
- Publication number
- CN111753043B CN111753043B CN202010576528.9A CN202010576528A CN111753043B CN 111753043 B CN111753043 B CN 111753043B CN 202010576528 A CN202010576528 A CN 202010576528A CN 111753043 B CN111753043 B CN 111753043B
- Authority
- CN
- China
- Prior art keywords
- candidate
- document
- abstract
- segments
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims abstract description 57
- 238000012545 processing Methods 0.000 claims abstract description 19
- 239000012634 fragment Substances 0.000 claims description 46
- 238000000034 method Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 11
- 241000590419 Polygonia interrogationis Species 0.000 claims description 3
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提出了一种文档数据处理方法、装置和存储介质,涉及人工智能领域。该文档数据处理方法包括:接收查询语句;基于查询语句对文档库进行搜索以确定与查询语句相关的文档;对文档进行语句切分以获得多个切分语句;基于多个切分语句生成多个候选摘要片段;基于查询语句以及多个候选摘要片段中的每个候选摘要片段的属性来对多个候选摘要片段进行打分;基于打分的结果来将多个候选摘要片段中的至少一个候选摘要片段确定为文档的摘要。
Description
技术领域
本发明涉及人工智能领域,具体而言,涉及一种文档数据处理方法、文档数据处理装置和存储介质。
背景技术
在企业发展过程会沉淀许多有价值的文档至知识库Wiki或类似的系统。例如,员工自发地积累项目文档或知识经验等。为了提高员工办公效率以及缩短知识获取路径,必然需要统一的查询检索入口进行内容分发。在查询检索时,为便于用户判断检索到的文档是否是所需文档,可以根据查询检索关键字生成一段文章摘要供用户查阅。
生成的摘要不仅要求包含查询检索关键字,还应该保证高质以及语义连贯,同时在保证相关性的基础上提高可读性。若摘要的可读性不佳或抽取句子有误,则可能会降低知识获取的效率,拉低用户满意度,不利于知识在企业内流动。
因此需要一种文档数据处理方法,以至少部分地解决上述问题。
发明内容
根据本发明实施例的第一方面,提供了一种文档数据处理方法,包括:接收查询语句;
基于所述查询语句对文档库进行搜索以确定与所述查询语句相关的文档;
对所述文档进行语句切分以获得多个切分语句;
基于所述多个切分语句生成多个候选摘要片段;
基于所述查询语句以及所述多个候选摘要片段中的每个候选摘要片段的属性来对所述多个候选摘要片段进行打分;以及
基于打分的结果来将所述多个候选摘要片段中的至少一个候选摘要片段确定为所述文档的摘要。
根据本发明实施例的第二方面,提供了一种文档数据处理装置,包括:
处理器;以及
存储器,配置用于存储机器可读指令,所述处理器被配置为执行所述指令以:
接收查询语句;
基于所述查询语句对文档库进行搜索以确定与所述查询语句相关的文档;
对所述文档进行语句切分以获得多个切分语句;
基于所述多个切分语句生成多个候选摘要片段;
基于所述查询语句以及所述多个候选摘要片段中的每个候选摘要片段的属性来对所述多个候选摘要片段进行打分;以及
基于打分的结果来将所述多个候选摘要片段中的至少一个候选摘要片段确定为所述文档的摘要。
根据本发明实施例的第三方面,提供了一种计算机可读存储介质,其上存储有可执行指令,所述指令在被处理器执行时使所述处理器执行根据本发明第一方面实施例所述的文档数据处理方法。
根据本发明实施例的第四方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述方法。
根据本发明的实施例的技术方案,通过基于满足设定条件的切分标记来对文档进行切分,避免了文档由于被错误切分而导致所生成的摘要可读性差的问题;通过基于查询语句和每个候选摘要片段的属性来对候选摘要片段进行打分并排序,提高了所生成的摘要的信息密度;通过在对候选摘要片段打分排序的基础上基于关键词的命中对候选摘要片段进行选择,提高了所生成的摘要的质量;通过对所生成的摘要中与关键词匹配的词的高亮显示进行调整,改进了摘要的显示效果。
附图说明
通过下文结合附图的详细描述,本发明的上述和其它特征将会变得更加明显,其中:
图1示出了根据本发明实施例的文档数据处理方法的流程图;
图2示出了根据本发明实施例的对文档语句进行切分的示例;
图3A和图3B示出了根据本发明的实施例的取消权值低的单个字的高亮显示的示例;以及
图4示出了根据本发明实施例的文档数据处理装置的框图。
在附图中,相同或相似的结构均以相同或相似的附图标记进行标识。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚明白,以下结合附图对本申请做进一步详细说明。应注意,以下描述只用于举例说明,并不用于限制本公开。在以下描述中,为了提供对本公开的透彻理解,阐述了大量特定细节。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本公开。在其他实例中,为了避免混淆本公开,未具体描述公知的电路、材料或方法。
在整个说明书中,对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着:结合该实施例或示例描述的特定特征、结构或特性被包含在本公开至少一个实施例中。因此,在整个说明书的各个地方出现的短语“在一个实施例中”、“在实施例中”、“一个示例”或“示例”不一定都指同一实施例或示例。此外,可以以任何适当的组合和/或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。这里使用的术语“和/或”包括一个或多个相关列出的项目的任何和所有组合。
图1示出了根据本发明实施例的文档数据处理方法的流程图。如图1所示,该文档数据处理方法包括:
在步骤S110中,接收查询语句。
在步骤S120中,基于查询语句对文档库进行搜索以确定与查询语句相关的文档。
在步骤S130中,对文档进行语句切分以获得多个切分语句。
在步骤S140中,基于多个切分语句生成多个候选摘要片段。
在步骤S150中,基于查询语句以及多个候选摘要片段中的每个候选摘要片段的属性来对多个候选摘要片段进行打分。
在步骤S160中,基于打分的结果来将多个候选摘要片段中的至少一个候选摘要片段确定为文档的摘要。
根据本发明实施例的文档数据处理方法,可以在保证查询搜索的相关性的基础上生成质量较高且可读信息量密集的摘要。下面一企业级知识库Wiki中的文档为例对本发明实施例的文档数据处理方法进行详细说明。但应理解,本发明不限于此,本发明实施例的文档数据处理方法也可以用于其他类型的文档中。
首先,在步骤S110中,接收查询语句,该查询语句中包含与用户所要检索的文档有关的关键词。例如,用户意欲检索与机器学习有关的内容,则查询语句可以是“机器学习的学习方法”。
接下来,在步骤S120中,可以基于查询语句对文档库进行搜索以确定与查询语句相关的文档。例如如果查询语句为“机器学习的学习方法”,则可以从文档库中搜索出大量与机器学习有关的文档。
接下来,在步骤S130中,对文档进行语句切分以获得多个切分语句。根据实施例,对文档进行语句切分以获得多个切分语句的起始位置和结尾位置。
根据本发明的实施例,对文档进行语句切分可以进一步包括确定文档中的多个符号的位置,将多个符号中满足设定的条件的符号作为切分标记,并基于切分标记对文档进行切分以获得多个切分语句。
正确地切分语句对形成高可读性的摘要至关重要。在企业级Wiki场景下文档的信息密度很高且行文随意,并且在文档中存在大量不规范的标点符号,甚至有的文档无标点符号。另外,企业级Wiki场景下的文档存在某些特殊类型的文章,例如纯表格、纯图片或包含诸如URL等的地址字符序列,这些内容均无法作为普通的句子进行处理。此外,在企业级Wiki文档中存在公式、序号等数字内容,如果不对这些数字内容进行单独处理,则有可能导致句子被错误地切断。
根据本发明实施例,将特定标点符号、制表符、换行符和空格符确定为切分标记。具体地,标点符号可以是英文标点符号和中文标点符号,包括英文输入法和中文输入法下的逗号、句号、问号、叹号和分号。根据实施例,将‘.’、‘。’、‘!’、‘!’、‘?’、‘?’、‘;’、‘;’、‘\t’、‘\n’和‘空格’作为文档基础语句的切分依据。
下面对设定的条件的几种情况进行说明。
符号不在地址字符序列内,若切分标记在地址字符序列内,则将切断地址字符序列,从而导致错误。例如,在URL序列prospero://<host>:<port>/<hsoname>;<field>=<value>中,存在英文输入法下的‘;’,此时由于‘;’位于URL序列内,因此不进行切分。
符号不在成对的标点符号内,成对的标点符号内的内容是一个整体,若切分标记在成对的标点符号内,则不进行切分。成对的标点符号例如是双引号“”或书名号《》。
符号是英文标点符号中的句号且与该句号相邻的字符为非数字。这种情况下,形成标题序号的形式,例如1.2、1.1.3等,此时不进行切分。
符号是空格符且与该空格符相邻的字符为非标点符号。这种情况主要是避免将一些用户的书写习惯错误地切分。例如“我的文档:机器学习的学习方法”,在“:”的后面存在空格,这是由于书写习惯造成的,因此不对该处文档进行切分。
图2示出了根据本发明实施例的对文档语句进行切分的示例。如图2所示,在该示例中,首先通过正则表达式匹配URL的位置,匹配URL的正则表达式可以为:
http(s)?://([\\w-]+\\.)+[\\w-]+(/[\\w-./?%&=#]*)?。
在图2所示的四种情况下,不对语句进行切分,以保证所生成语句的语义完整性。可以将文档的起始位置记为坐标零位置,并依次获得切分得到的各语句相对于零位置的偏移。
根据本发明的实施例,通过基于满足设定条件的切分标记来对文档进行切分,避免了文档由于被错误切分而导致所生成的摘要可读性差的问题。
接下来,在步骤S140中,基于多个切分语句生成多个候选摘要片段。根据实施例,该步骤进一步包括对文档进行分词以获得多个词,以文档的起始位置作为扫描起始位置来对文档进行扫描,当扫描得到的词的总字数大于或等于预设的字数阈值且在扫描结尾位置处的最后一个词位于多个切分语句中的一个切分语句的结尾位置时,基于扫描起始位置与扫描结尾位置之间的词生成候选摘要片段,并以扫描结尾位置作为下一次扫描的扫描起始位置来进行下一次扫描。
这里,对文档进行分词以获得多个词可以基于常规的分词方法获得。例如利用Lucence库所使用的分词方法获得。又例如,也可以将Solr或ElasticSearch等基于Lucene库的搜索引擎所采用的分词索引直接引入,本发明的实施例对此不作限定。
假设预设的字数阈值为40,字数阈值可以根据要展示的摘要的内容的容量进行调整。接下来,对于已经完成分词的文档,从文档的起始位置开始,对词进行累加,当累加的词的总的字数大于或等于字数阈值40时,判断累加的最后一个词是否位于前面切分得到的多个语句中的某个语句的结尾位置。例如,如果“百度”是倒数第二个累加的词,当将最后一个累加的词“云计算”累加到已经累加在一起的词之后,累积的词的总的字数大于40,则对“云计算”在切分语句中的位置进行判断。如果“云计算”位于句子“百度云计算的优势在于:”中,则说明“云计算”并未位于句子的结尾位置,此时继续对“云计算”后续的词进行累加,直到累加的最后一个词位于一个切分语句的结尾位置。如果“云计算”位于句子“随时随地使用百度云计算。”中,由于云计算是切分标记“。”,即“云计算”位于切分语句的结尾位置,因此可以将以“云计算”作为最后一个累加词的摘要片段作为一个候选摘要片段。重复执行上面的步骤,直到将文档中的所有语句均生成为候选摘要片段。
根据本发明实施例的候选摘要片段的生成方法,能够充分保证语句的完整性,提高摘要的可读性。
接下来,在步骤S150中,基于查询语句以及多个候选摘要片段中的每个候选摘要片段的属性来对多个候选摘要片段进行打分,以便从多个候选摘要片段中对摘要片段进行选择。
根据企业级Wiki文档的相关性,基于如下特征对候选摘要片段进行评分和排序,包括候选摘要片段的关键词权重、候选摘要片段的关键词覆盖率、候选摘要片段的长度、候选摘要片段中的中文字符占比以及候选摘要片段在文档中的位置中的至少一个。其中,候选摘要片段的长度、候选摘要片段中的中文字符占比以及候选摘要片段在文档中的位置是候选摘要片段自身的属性。下面分别进行说明:
1)候选摘要片段的长度L,根据实施例,L可以定义为去掉所有标点之后的候选摘要片段的字符串长度。
2)候选摘要片段中的中文字符占比Rc。根据实施例,可以根据下面的等式(1)计算,Rc可以计算为候选摘要片段中的中文字符数N与候选摘要片段的长度L的比值:
Rc能够尽可能地保证优先选择长度较长的片段,从而保证候选摘要片段中信息的密集度。
3)候选摘要片段在文档中的位置O。根据实施例,O可以是候选摘要片段在整个文档范围内的位置索引。一般地,文档前面的内容通常含有总结性与概括性的语句,因此O能够保证优先选择位置靠前的片段。
4)关键词权重W。对查询语句进行分词可以获得多个关键词,不同的关键词的重要性不同,这可以通过关键词权重来表示。对于多个候选摘要片段中的每个候选摘要片段,确定候选摘要片段中与多个关键词匹配的词,基于匹配的词来确定候选摘要片段的关键词权重。具体地,根据实施例,可以通过Solr的查询解析模块得到查询语句中的每个关键词的权重,并基于每个关键词的权重计算候选摘要片段匹配的词(命中的关键词)的权重的和,以此作为候选摘要片段的关键词权重。容易理解,也可以基于其他方法获得查询语句中的每个关键词的权重,本发明对此不作限定。
5)关键词覆盖率C。根据实施例,关键词覆盖率C可以定义为候选摘要片段中匹配的词(命中的关键词)的数量与分词粒度之商。C能够用来衡量候选摘要片段与查询语句相关性,优先选择命中更多关键词的候选摘要片段。
需要说明的是,分词粒度分为基本粒度和混排粒度。例如“机器学习的学习方法”的基本粒度分词为“机器/学习/的/学习/方法”,其混排粒度分词为“机器学习/的/学习/方法”。一般情况下,基本粒度分词保证召回数量,混排粒度分词保证语义的准确性。
根据实施例,可以根据下面的等式来对多个候选摘要片段进行打分:
其中,S为候选摘要片段的得分,W为候选摘要片段的关键词权重,L为候选摘要片段的长度,Rc为候选摘要片段中的中文字符占比,C为候选摘要片段的关键词覆盖率,O为候选摘要片段在文档中的位置。
根据本发明的实施例,通过基于查询语句和每个候选摘要片段的属性来对候选摘要片段进行打分并排序,更有利于选择长度较长的摘要片段,并优先选择位置靠前的摘要片段,提高了所生成的摘要的信息密度。
此外,通常企业级Wiki的文档分为标题(title)和内容(content)两个域。在操作时,通常分别针对两个域进行。但由于标题通常较为短小,因此不针对标题生成候选摘要片段。
接下来,在步骤S160中,基于打分的结果来将多个候选摘要片段中的至少一个候选摘要片段确定为文档的摘要。根据实施例,首先根据上面的等式(2)对所有候选摘要片段的得分进行倒排,然后优先选择包含之前片段中未出现的匹配的词(命中的关键词)的片段,以便在查询语句包含内容较多时,优先选择包含尽可能多的匹配的词(命中的关键词)的片段。
在具体的实施例中,步骤S160还包括:基于打分的结果来将多个候选摘要片段划分为结果摘要片段集合和备选摘要片段集合,将结果摘要片段集合中的摘要片段确定为文档的摘要,并且当结果摘要片段集合中的摘要片段的数量小于要生成的摘要的数量时,基于打分的结果从备选摘要片段集合中选择至少一个摘要片段,并将结果摘要片段集合中的摘要片段和所选择的至少一个摘要片段确定为文档的摘要。
在具体的实施例中,基于打分的结果来将多个候选摘要片段划分为结果摘要片段集合和备选摘要片段集合还包括:基于打分的结果对多个候选摘要片段进行排序,将得分最高的候选摘要片段放入结果摘要片段集合,依次比较相邻的两个候选摘要片段,如果排序在后的候选摘要片段中包含排序在前的候选摘要片段中未包含的关键词,则将排序在后的候选摘要片段放入结果摘要片段集合,否则将排序在后的候选摘要片段放入备选摘要片段集合。
根据本发明的实施例,通过在对候选摘要片段打分排序的基础上基于关键词的命中对候选摘要片段进行选择,提高了所生成的摘要的质量。
此外,可以在所生成的摘要中对与多个关键词匹配的词进行高亮显示,并且对所生成的摘要添加一些美化策略来保证最终展现在前端的摘要的文本格式规范且可读性良好。
摘要的美化策略包括:针对所生成的摘要中匹配的词中的每个词,基于该词相对于查询语句的重要性参数对该词进行打分,并取消对得分低于预设的分数阈值的词的高亮显示。该操作主要是为了消除权值低的孤立的单个匹配的关键字的高亮显示。
图3A和图3B示出了根据本发明的实施例的取消权值低的单个字的高亮显示的示例。在图3A和图3B中,为了显示的清楚,用方框圈出了高亮显示的词。如图3A所示,查询语句是“机器学习的学习方法”,某条查询内容的摘要中,“的”被高亮显示,但通过对“机器学习的学习方法”中的关键词的权重进行计算,可知“的”的权重较低,低于预设的分数阈值,因此取消对“的”的高亮显示,如图3B所示,调整后的摘要更加美观,也更易阅读。
此外,还可以将诸如URL之类的地址字符序列中的多余后缀参数部分移除;或者可以将多个连续的符号(例如“,,,,,,,”)替换为一个(例如“,”);或者可以将制表符“\t”替换为空格符。通过这些美化手段,可以对摘要的内容进行压缩,以便显示更多有用的信息。此外,还可以将中英文序号移除,例如1.1.2等,或者将文档标题移除。
图4示出了根据本发明实施例的文档数据处理装置的框图。如图4所示,文档数据处理装置400,包括处理器401和存储器402,其中存储器402配置用于存储机器可读指令,处理器401可以执行根据前面任意实施例所述的文档数据处理方法。
在一些实施例中,处理器401可以执行以下步骤:接收查询语句,基于查询语句对文档库进行搜索以确定与查询语句相关的文档,对文档进行语句切分以获得多个切分语句,基于多个切分语句生成多个候选摘要片段,基于查询语句以及多个候选摘要片段中的每个候选摘要片段的属性来对多个候选摘要片段进行打分,以及基于打分的结果来将多个候选摘要片段中的至少一个候选摘要片段确定为文档的摘要。
存储器402可以具有以下形式:非易失性或易失性存储器,例如,电可擦除可编程只读存储器(EEPROM)、闪存等。
根据本申请的实施例,还提供了一种计算机程序产品。该计算机程序产品包括计算机程序,所述计算机程序在被处理器执行时可以实现上述任意实施例的方法。
本领域技术人员可以理解,上面示出的方法仅是示例性的。本发明的方法并不局限于上面示出的步骤和顺序。上面示出的设备可以为其他设备,可以包括更多的模块。上文中示出的各种标识仅是示例性的而不是限制性的。本领域技术人员根据所示实施例的教导可以进行许多变化和修改。
应该理解,本发明的上述实施例可以通过软件、硬件或者软件和硬件两者的结合来实现。例如,上述实施例中的设备内部的各种组件可以通过多种器件来实现,这些器件包括但不限于:模拟电路器件、数字电路器件、数字信号处理(DSP)电路、可编程处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、可编程逻辑器件(CPLD),等等。
此外,这里所公开的本发明的实施例可以在计算机程序产品上实现。更具体地,该计算机程序产品是如下的一种产品:具有计算机可读介质,计算机可读介质上编码有计算机程序逻辑,当在计算设备上执行时,该计算机程序逻辑提供相关的操作以实现本发明的上述技术方案。当在计算系统的至少一个处理器上执行时,计算机程序逻辑使得处理器执行本发明实施例所述的操作(方法)。本发明的这种设置典型地提供为设置或编码在例如光介质(例如CD-ROM)、软盘或硬盘等的计算机可读介质上的软件、代码和/或其他数据结构、或者诸如一个或多个ROM或RAM或PROM芯片上的固件或微代码的其他介质、或一个或多个模块中的可下载的软件图像、共享数据库等。软件或固件或这种配置可安装在计算设备上,以使得计算设备中的一个或多个处理器执行本发明实施例所描述的技术方案。
尽管以上已经结合本发明的优选实施例示出了本发明,但是本领域的技术人员将会理解,在不脱离本发明的精神和范围的情况下,可以对本发明进行各种修改、替换和改变。因此,本发明不应由上述实施例来限定,而应由所附权利要求及其等价物来限定。
Claims (26)
1.一种文档数据处理方法,包括:
接收查询语句;
基于所述查询语句对文档库进行搜索以确定与所述查询语句相关的文档;
对所述文档进行语句切分以获得多个切分语句;
基于所述多个切分语句生成多个候选摘要片段;
对所述查询语句进行分词以获得多个关键词;
对于所述多个候选摘要片段中的每个候选摘要片段,确定所述候选摘要片段中与所述多个关键词匹配的词;
针对所述候选摘要片段,确定所述匹配的词中的每个词相对于所述查询语句的重要性参数;
基于所述匹配的词的数量和重要性参数来确定所述候选摘要片段的关键词权重,并基于所述匹配的词的数量和所述候选摘要片段的分词粒度来确定所述候选摘要片段的关键词覆盖率;
并基于所述候选摘要片段的关键词权重、所述候选摘要片段的关键词覆盖率、所述候选摘要片段的长度、所述候选摘要片段中的中文字符占比以及所述候选摘要片段在所述文档中的位置,对所述多个候选摘要片段进行打分;以及
基于打分的结果来将所述多个候选摘要片段中的至少一个候选摘要片段确定为所述文档的摘要。
2.根据权利要求1所述的文档数据处理方法,其中,对所述文档进行语句切分以获得多个切分语句包括:
确定所述文档中的多个符号的位置;
将所述多个符号中满足设定的条件的符号作为切分标记;以及
基于所述切分标记对所述文档进行切分以获得多个切分语句。
3.根据权利要求2所述的文档数据处理方法,其中,所述多个符号包括以下中的至少一个:标点符号、制表符、换行符和空格符。
4.根据权利要求3所述的文档数据处理方法,其中,所述标点符号包括英文标点符号和中文标点符号,所述英文标点符号和中文标点符号各自包括逗号、句号、问号、叹号和分号。
5.根据权利要求3所述的文档数据处理方法,其中,所述设定的条件包括以下之中的至少一个:
所述符号不在地址字符序列内;
所述符号不在成对的标点符号内;
所述符号是英文标点符号中的句号且与该句号相邻的字符为非数字;以及
所述符号是空格符且与该空格符相邻的字符为非标点符号。
6.根据权利要求1所述的文档数据处理方法,其中,基于所述多个切分语句生成多个候选摘要片段包括:
对所述文档进行分词以获得多个词;
以所述文档的起始位置作为扫描起始位置来对所述文档进行扫描,当扫描得到的词的总字数大于或等于预设的字数阈值且在扫描结尾位置处的最后一个词位于所述多个切分语句中的一个切分语句的结尾位置时,基于扫描起始位置与扫描结尾位置之间的词生成候选摘要片段,并以所述扫描结尾位置作为下一次扫描的扫描起始位置来进行下一次扫描。
7.根据权利要求1所述的文档数据处理方法,其中,所述多个候选摘要片段中的每个候选摘要片段的属性包括所述候选摘要片段的长度、所述候选摘要片段中的中文字符占比以及所述候选摘要片段在所述文档中的位置中的至少一个。
8.根据权利要求1所述的文档数据处理方法,其中,根据以下等式来对所述多个候选摘要片段进行打分:
其中,S为候选摘要片段的得分,W为候选摘要片段的关键词权重,L为候选摘要片段的长度,Rc为候选摘要片段中的中文字符占比,C为候选摘要片段的关键词覆盖率,O为候选摘要片段在所述文档中的位置。
9.根据权利要求1所述的文档数据处理方法,其中,基于打分的结果来将所述多个候选摘要片段中的至少一个候选摘要片段确定为所述文档的摘要包括:
基于打分的结果来将所述多个候选摘要片段划分为结果摘要片段集合和备选摘要片段集合;
将所述结果摘要片段集合中的摘要片段确定为所述文档的摘要,并且当所述结果摘要片段集合中的摘要片段的数量小于要生成的摘要的数量时,基于打分的结果从所述备选摘要片段集合中选择至少一个摘要片段,并将所述结果摘要片段集合中的摘要片段和所选择的至少一个摘要片段确定为所述文档的摘要。
10.根据权利要求9所述的文档数据处理方法,其中,基于打分的结果来将所述多个候选摘要片段划分为结果摘要片段集合和备选摘要片段集合包括:
基于打分的结果对所述多个候选摘要片段进行排序;
将得分最高的候选摘要片段放入结果摘要片段集合;
依次比较相邻的两个候选摘要片段,如果排序在后的候选摘要片段中包含排序在前的候选摘要片段中未包含的关键词,则将所述排序在后的候选摘要片段放入结果摘要片段集合,否则将排序在后的候选摘要片段放入备选摘要片段集合;
其中,所述关键词通过对所述查询语句进行分词获得。
11.根据权利要求1所述的文档数据处理方法,还包括:在所生成的摘要中对与所述多个关键词匹配的词进行高亮显示。
12. 根据权利要求11所述的文档数据处理方法,还包括:
针对所生成的摘要中所述匹配的词中的每个词,基于该词相对于所述查询语句的重要性参数对该词进行打分;以及
取消对得分低于预设的分数阈值的词的高亮显示。
13. 一种文档数据处理装置,包括:
处理器;以及
存储器,配置用于存储机器可读指令,所述处理器被配置为执行所述指令以:
接收查询语句;
基于所述查询语句对文档库进行搜索以确定与所述查询语句相关的文档;
对所述文档进行语句切分以获得多个切分语句;
基于所述多个切分语句生成多个候选摘要片段;
对所述查询语句进行分词以获得多个关键词;
对于所述多个候选摘要片段中的每个候选摘要片段,确定所述候选摘要片段中与所述多个关键词匹配的词;
针对所述候选摘要片段,确定所述匹配的词中的每个词相对于所述查询语句的重要性参数;
基于所述匹配的词的数量和重要性参数来确定所述候选摘要片段的关键词权重,并基于所述匹配的词的数量和所述候选摘要片段的分词粒度来确定所述候选摘要片段的关键词覆盖率;
并基于所述候选摘要片段的关键词权重、所述候选摘要片段的关键词覆盖率、所述候选摘要片段的长度、所述候选摘要片段中的中文字符占比以及所述候选摘要片段在所述文档中的位置,对所述多个候选摘要片段进行打分;以及
基于打分的结果来将所述多个候选摘要片段中的至少一个候选摘要片段确定为所述文档的摘要。
14.根据权利要求13所述的文档数据处理装置,其中,所述处理器还被配置为:
确定所述文档中的多个符号的位置;
将所述多个符号中满足设定的条件的符号作为切分标记;以及
基于所述切分标记对所述文档进行切分以获得多个切分语句。
15.根据权利要求14所述的文档数据处理装置,其中,所述多个符号包括以下中的至少一个:标点符号、制表符、换行符和空格符。
16.根据权利要求15所述的文档数据处理装置,其中,所述标点符号包括英文标点符号和中文标点符号,所述英文标点符号和中文标点符号各自包括逗号、句号、问号、叹号和分号。
17.根据权利要求15所述的文档数据处理装置,其中,所述设定的条件包括以下之中的至少一个:
所述符号不在地址字符序列内;
所述符号不在成对的标点符号内;
所述符号是英文标点符号中的句号且与该句号相邻的字符为非数字;以及
所述符号是空格符且与该空格符相邻的字符为非标点符号。
18.根据权利要求13所述的文档数据处理装置,其中,所述处理器还被配置为:
对所述文档进行分词以获得多个词;
以所述文档的起始位置作为扫描起始位置来对所述文档进行扫描,当扫描得到的词的总字数大于或等于预设的字数阈值且在扫描结尾位置处的最后一个词位于所述多个切分语句中的一个切分语句的结尾位置时,基于扫描起始位置与扫描结尾位置之间的词生成候选摘要片段,并以所述扫描结尾位置作为下一次扫描的扫描起始位置来进行下一次扫描。
19.根据权利要求13所述的文档数据处理装置,其中,所述多个候选摘要片段中的每个候选摘要片段的属性包括所述候选摘要片段的长度、所述候选摘要片段中的中文字符占比以及所述候选摘要片段在所述文档中的位置中的至少一个。
20.根据权利要求13所述的文档数据处理装置,其中,所述处理器还被配置为根据以下等式来对所述多个候选摘要片段进行打分:
其中,S为候选摘要片段的得分,W为候选摘要片段的关键词权重,L为候选摘要片段的长度,Rc为候选摘要片段中的中文字符占比,C为候选摘要片段的关键词覆盖率,O为候选摘要片段在所述文档中的位置。
21.根据权利要求13所述的文档数据处理装置,其中,所述处理器还被配置为:
基于打分的结果来将所述多个候选摘要片段划分为结果摘要片段集合和备选摘要片段集合;
将所述结果摘要片段集合中的摘要片段确定为所述文档的摘要,并且当所述结果摘要片段集合中的摘要片段的数量小于要生成的摘要的数量时,基于打分的结果从所述备选摘要片段集合中选择至少一个摘要片段,并将所述结果摘要片段集合中的摘要片段和所选择的至少一个摘要片段确定为所述文档的摘要。
22.根据权利要求21所述的文档数据处理装置,其中,所述处理器还被配置为:
基于打分的结果对所述多个候选摘要片段进行排序;
将得分最高的候选摘要片段放入结果摘要片段集合;
依次比较相邻的两个候选摘要片段,如果排序在后的候选摘要片段中包含排序在前的候选摘要片段中未包含的关键词,则将所述排序在后的候选摘要片段放入结果摘要片段集合,否则将排序在后的候选摘要片段放入备选摘要片段集合;
其中,所述关键词通过对所述查询语句进行分词获得。
23.根据权利要求13所述的文档数据处理装置,其中,所述处理器还被配置为:在所生成的摘要中对与所述多个关键词匹配的词进行高亮显示。
24. 根据权利要求23所述的文档数据处理装置,其中,所述处理器还被配置为:
针对所生成的摘要中所述匹配的词中的每个词,基于该词相对于所述查询语句的重要性参数对该词进行打分;以及
取消对得分低于预设的分数阈值的词的高亮显示。
25.一种计算机可读存储介质,其上存储有可执行指令,所述指令在被处理器执行时使所述处理器执行根据权利要求1至12中任一项所述的方法。
26.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1至12中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010576528.9A CN111753043B (zh) | 2020-06-22 | 2020-06-22 | 文档数据处理方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010576528.9A CN111753043B (zh) | 2020-06-22 | 2020-06-22 | 文档数据处理方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111753043A CN111753043A (zh) | 2020-10-09 |
CN111753043B true CN111753043B (zh) | 2024-04-16 |
Family
ID=72674989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010576528.9A Active CN111753043B (zh) | 2020-06-22 | 2020-06-22 | 文档数据处理方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111753043B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11880416B2 (en) * | 2020-10-21 | 2024-01-23 | International Business Machines Corporation | Sorting documents according to comprehensibility scores determined for the documents |
CN112307190B (zh) * | 2020-10-31 | 2023-07-25 | 平安科技(深圳)有限公司 | 医学文献排序方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512335A (zh) * | 2015-12-29 | 2016-04-20 | 腾讯科技(深圳)有限公司 | 一种摘要搜索方法和装置 |
CN109657053A (zh) * | 2018-12-13 | 2019-04-19 | 北京百度网讯科技有限公司 | 多文本摘要生成方法、装置、服务器及存储介质 |
CN111241267A (zh) * | 2020-01-10 | 2020-06-05 | 科大讯飞股份有限公司 | 摘要提取和摘要抽取模型训练方法及相关装置、存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8301633B2 (en) * | 2007-10-01 | 2012-10-30 | Palo Alto Research Center Incorporated | System and method for semantic search |
-
2020
- 2020-06-22 CN CN202010576528.9A patent/CN111753043B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512335A (zh) * | 2015-12-29 | 2016-04-20 | 腾讯科技(深圳)有限公司 | 一种摘要搜索方法和装置 |
CN109657053A (zh) * | 2018-12-13 | 2019-04-19 | 北京百度网讯科技有限公司 | 多文本摘要生成方法、装置、服务器及存储介质 |
CN111241267A (zh) * | 2020-01-10 | 2020-06-05 | 科大讯飞股份有限公司 | 摘要提取和摘要抽取模型训练方法及相关装置、存储介质 |
Non-Patent Citations (1)
Title |
---|
以关键词抽取为核心的文摘句选择策略;马亮;何婷婷;李芳;陈劲光;邵伟;;中文信息学报;20081130;22(第06期);50-54 * |
Also Published As
Publication number | Publication date |
---|---|
CN111753043A (zh) | 2020-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9195738B2 (en) | Tokenization platform | |
US8332391B1 (en) | Method and apparatus for automatically identifying compounds | |
JP5597255B2 (ja) | 単語の重みに基づいた検索結果の順位付け | |
KR100451978B1 (ko) | 정보 검색 방법과 정보 검색 장치 | |
CN103678576B (zh) | 基于动态语义分析的全文检索系统 | |
US9342627B2 (en) | Determining word information entropies | |
US20130110839A1 (en) | Constructing an analysis of a document | |
US20070208733A1 (en) | Query Correction Using Indexed Content on a Desktop Indexer Program | |
US10733359B2 (en) | Expanding input content utilizing previously-generated content | |
CN111753043B (zh) | 文档数据处理方法、装置和存储介质 | |
US9529908B2 (en) | Tiering of posting lists in search engine index | |
CN105930546B (zh) | 文件关联显示方法 | |
JP5900367B2 (ja) | 検索装置、検索方法及びプログラム | |
US7783589B2 (en) | Inverted index processing | |
US20110264653A1 (en) | Spreading comments to other documents | |
US11468346B2 (en) | Identifying sequence headings in a document | |
US20130159315A1 (en) | Methods for prefix indexing | |
US7730062B2 (en) | Cap-sensitive text search for documents | |
US11494555B2 (en) | Identifying section headings in a document | |
CN106372123B (zh) | 一种基于标签的相关内容推荐方法和系统 | |
CN114036256B (zh) | 基于Solr的非结构化文件检索方法、装置、设备及存储介质 | |
JP2004240488A (ja) | 文書管理装置 | |
JP2012141681A (ja) | クエリセグメント位置決定装置 | |
CN113806491A (zh) | 一种信息处理的方法、装置、设备和介质 | |
CN112559324A (zh) | 一种基于应用内视觉挖掘的软件测试用例生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |