CN113378550A - 摘要文本标注方法、装置和设备以及计算机存储介质 - Google Patents

摘要文本标注方法、装置和设备以及计算机存储介质 Download PDF

Info

Publication number
CN113378550A
CN113378550A CN202010117646.3A CN202010117646A CN113378550A CN 113378550 A CN113378550 A CN 113378550A CN 202010117646 A CN202010117646 A CN 202010117646A CN 113378550 A CN113378550 A CN 113378550A
Authority
CN
China
Prior art keywords
text
matching
characters
abstract
abstract text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010117646.3A
Other languages
English (en)
Inventor
李安新
郭垿宏
关雅卓
陈岚
池田大志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to CN202010117646.3A priority Critical patent/CN113378550A/zh
Priority to JP2020201011A priority patent/JP2021136008A/ja
Publication of CN113378550A publication Critical patent/CN113378550A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本公开涉及一种摘要文本标注方法、摘要文本标注装置和摘要文本标注设备以及计算机存储介质。所述摘要文本是基于原始文本生成的,所述摘要文本标注包括:以第一预定长度的字符为单位,将所述摘要文本的字符与所述原始文本执行第一匹配处理,获得第一匹配结果;在所述第一匹配结果指示所述第一匹配处理之后存在未匹配的所述摘要文本的字符时,以第二可变长度的字符为单位,将未匹配的所述摘要文本的字符与所述原始文本执行第二匹配处理,获得第二匹配结果;基于所述第一匹配结果和所述第二匹配结果,标注所述摘要文本的字符与所述原始文本的对应性。

Description

摘要文本标注方法、装置和设备以及计算机存储介质
技术领域
本公开涉及基于人工智能技术的文本处理领域,并且具体涉及一种摘要文本标注方法、摘要文本标注装置和摘要文本标注设备以及计算机存储介质。
背景技术
自然语言处理(NLP)是人工智能技术重要的应用领域之一。自然语言处理能够让计算机像人一样能够阅读文字,理解文字背后的含义,从而完成机器翻译、自动问答、信息检索、情感分析、自动文本摘要等具体应用。在自然语言处理中,文本摘要提取指的是将一段有明确含义的文本内容进行高度的概括和抽象,生成文本的摘要。基于深度神经网络文本摘要提取系统能够实现不依赖于文本的具体内容、文本长度的文本摘要提取。
基于深度神经网络的自然语言处理系统通常在接收到待提取摘要的原始文本之后,直接输出提取之后的摘要文本。然而,用户难以从直接输出的摘要文本中识别出其在原始文本中的位置。例如,如果用户想根据摘要文本的内容再详细阅读原始文本的相应部分,则在原始文本比较长的情况下,难以定位相应部分。
发明内容
鉴于上述问题而提出了本公开。本公开提供了一种摘要文本标注方法、摘要文本标注装置和摘要文本标注设备以及计算机存储介质。
根据本公开的一个方面,提供了一种摘要文本标注方法,所述摘要文本是基于原始文本生成的,所述摘要文本标注包括:以第一预定长度的字符为单位,将所述摘要文本的字符与所述原始文本执行第一匹配处理,获得第一匹配结果;在所述第一匹配结果指示所述第一匹配处理之后存在未匹配的所述摘要文本的字符时,以第二可变长度的字符为单位,将未匹配的所述摘要文本的字符与所述原始文本执行第二匹配处理,获得第二匹配结果;基于所述第一匹配结果和所述第二匹配结果,标注所述摘要文本的字符与所述原始文本的对应性。
此外,根据本公开一个方面的摘要文本标注方法,其中,以第二可变长度的字符为单位,将未匹配的所述摘要文本的字符与所述原始文本执行第二匹配处理,获得第二匹配结果包括:以第三预定长度的字符为单位,识别所述第三预定长度的所述未匹配的所述摘要文本中的预定词性的词语;将所述预定词性的词语与所述原始文本执行第二子匹配处理,获得第二子匹配处理结果;在所述第二子匹配处理结果指示所述预定词性的词语与所述原始文本匹配时,以所述预定词性的词语为中心,向两边扩展第四预定长度的字符,将扩展后的所述预定词性的词语与所述原始文本执行第二子匹配处理;重复所述扩展和所述第二子匹配处理,直到所述第二子匹配处理结果指示扩展后的所述预定词性的词语与所述原始文本不匹配。
此外,根据本公开一个方面的摘要文本标注方法,其中,所述第四预定长度为一个字符,或者所述第四预定长度为所述第三预定长度的预定比例。
此外,根据本公开一个方面的摘要文本标注方法,还包括:在所述第二匹配结果指示所述第二匹配处理之后还存在未匹配的所述摘要文本的字符时,将未匹配的所述摘要文本的字符与所述原始文本执行第三匹配处理。
根据本公开的另一个方面,提供了一种摘要文本标注装置,所述摘要文本是基于原始文本生成的,所述摘要文本装置包括:第一匹配单元,用于以第一预定长度的字符为单位,将所述摘要文本的字符与所述原始文本执行第一匹配处理,获得第一匹配结果;第二匹配单元,用于在所述第一匹配结果指示所述第一匹配处理之后存在未匹配的所述摘要文本的字符时,以第二可变长度的字符为单位,将未匹配的所述摘要文本的字符与所述原始文本执行第二匹配处理,获得第二匹配结果;标注单元,用于基于所述第一匹配结果和所述第二匹配结果,标注所述摘要文本的字符与所述原始文本的对应性。
此外,根据本公开另一个方面的摘要文本标注装置,其中,所述第二匹配单元以第三预定长度的字符为单位,识别所述第三预定长度的所述未匹配的所述摘要文本中的预定词性的词语;将所述预定词性的词语与所述原始文本执行第二子匹配处理,获得第二子匹配处理结果;在所述第二子匹配处理结果指示所述预定词性的词语与所述原始文本匹配时,以所述预定词性的词语为中心,向两边扩展第四预定长度的字符,将扩展后的所述预定词性的词语与所述原始文本执行第二子匹配处理;重复所述扩展和所述第二子匹配处理,直到所述第二子匹配处理结果指示扩展后的所述预定词性的词语与所述原始文本不匹配。
此外,根据本公开另一个方面的摘要文本标注装置,其中,所述第四预定长度为一个字符,或者所述第四预定长度为所述第三预定长度的预定比例。
此外,根据本公开另一个方面的摘要文本标注装置,还包括:第三匹配单元,用于在所述第二匹配结果指示所述第二匹配处理之后还存在未匹配的所述摘要文本的字符时,将未匹配的所述摘要文本的字符与所述原始文本执行第三匹配处理。
根据本公开的又一个方面,提供了一种摘要文本标注设备,包括:存储器,用于存储计算机可读指令;以及处理器,用于运行所述计算机可读指令,使得所述摘要文本标注设备执行如上所述的摘要文本标注方法。
根据本公开的再一个方面,提供了一种计算机存储介质,用于存储计算机可读指令,当所述计算机可读指令由计算机执行时,使得所述计算机执行如上所述的摘要文本标注方法。
如以下将详细描述的,根据本公开的摘要文本标注方法、摘要文本标注装置和摘要文本标注设备以及计算机存储介质,不但能够以整句或半句为单位识别并标注摘要文本与原始文本的对应性,而且能够在更细的粒度上识别并标注摘要文本与原始文本的对应性,以便对于不是从原始文本整句或半句提取的摘要文本,甚至是基于原始文本所生成的摘要文本,实现对应性的识别和标注,从而使得用户能够直观地获知摘要文本在原始文本中的相应位置,获得更好的阅读体验。
要理解的是,前面的一般描述和下面的详细描述两者都是示例性的,并且意图在于提供要求保护的技术的进一步说明。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是概述根据本公开实施例的摘要文本标注方法的应用场景的示意图;
图2是图示根据本公开实施例的摘要文本标注方法的流程图;
图3是进一步图示根据本公开实施例的摘要文本标注方法的流程图;
图4A-4C是进一步图示根据本公开实施例的摘要文本标注方法的示意图;
图5是图示根据本公开实施例的摘要文本标注装置的框图;
图6是图示根据本公开实施例的摘要文本标注设备的硬件框图;以及
图7是图示根据本公开的实施例的计算机可读存储介质的示意图。
具体实施方式
为了使得本公开的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
首先,参照图1描述根据本公开实施例的摘要文本标注方法的应用场景。
图1是概述根据本公开实施例的摘要文本标注方法的应用场景的示意图。如图1所示,根据本公开实施例的摘要文本标注方法可以应用于自然语言处理系统10。自然语言处理系统10配置有自然语言处理装置100。自然语言处理装置100经由通信网络103与用户101a-101c各自的用户设备102a-102c执行数据通信。
自然语言处理装置100包括但不限于配置有大数据处理能力和大容量数据存储能力的服务器装置,诸如搜索引擎服务器、内容提供服务器等。用户设备102a-102c包括但不限于笔记本计算机、台式计算机、智能电话、平板电脑等具有数据处理能力的移动终端或者固定终端。通信网络103包括但不限于遵循诸如传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)和/或文件传输协议(FTP)配置的互联网、IPTV网络、无线保真(Wi-Fi)网络、无线局域网(WLAN)、局域网(LAN)和/或城域网(MAN)等。
在本公开的一个实施例中,自然语言处理系统10例如是摘要文本生成系统。例如,当新闻服务提供商提供新闻信息的时候,不管是提供单一新闻还是提供聚合新闻,用户有时候不想看全文,或者看很多相关新闻,但还希望看到一篇摘要。作为摘要文本生成系统的自然语言处理系统10可以通过全篇幅语义分析,将整篇新闻精简成一个有明确标题并配有几句概述的新闻摘要文本。在用户看到新闻摘要文本时,如果想根据摘要文本的内容再详细阅读原始文本的相应部分,则希望自然语言处理系统10能够对于新闻摘要文本在原始文本中的具体位置进行标注。
在本公开的一个实施例中,自然语言处理装置100例如为摘要文本生成器。自然语言处理装置100接收由用户设备102a-102c通过通信网络103提出的摘要文本生成请求,自然语言处理装置100基于全篇幅语义分析,自动提取并且生成摘要文本,并且向用户101a-101c提供生成的摘要文本。
如下将详细描述的,在自然语言处理系统10实现的根据本公开实施例的摘要文本标注方法,不但能够以整句或半句为单位识别并标注摘要文本与原始文本的对应性,而且能够在更细的粒度上识别并标注摘要文本与原始文本的对应性,以便对于不是从原始文本整句或半句提取的摘要文本,甚至是基于原始文本所生成的摘要文本,实现对应性的识别和标注,从而使得用户能够直观地获知摘要文本在原始文本中的相应位置,获得更好的阅读体验。
以下,将参照图2到图4C描述根据本公开实施例的摘要文本标注方法。图2是图示根据本公开实施例的摘要文本标注方法的流程图。
如图2所示,根据本公开实施例的摘要文本标注方法包括以下步骤。
在步骤S201中,以第一预定长度的字符为单位,将所述摘要文本的字符与所述原始文本执行第一匹配处理,获得第一匹配结果。在本公开的一个实施例中,所述第一预定长度为所述摘要文本的整句,或者为所述摘要文本的半句。可以根据所述摘要文本的标点符号来确定所述摘要文本的半句或整句。更具地体,从摘要文本起始处开始,以半句或者整句为单位,将所述摘要文本的所有字符与所述原始文本执行第一匹配处理,直到摘要文本的结束处。在所述原始文本中存在与所述摘要文本的半句或整句完全相同的半句或整句,则第一匹配结果将指示所述摘要文本的这个半句或整句匹配成功。
在步骤S202中,判断所述第一匹配结果是否指示所述第一匹配处理之后存在未匹配的所述摘要文本的字符。
在本公开的一个实施例中,如果所述摘要文本的每个半句或整句都与所述原始文本中的相应的半句或整句匹配,则不存在未匹配的所述摘要文本的字符。在此情况下,根据本公开实施例的摘要文本标注方法将进到步骤S204。
与此不同,如果所述摘要文本中存在与所述原始文本不匹配的半句或者整句,则处理进到步骤S203。
在步骤S203中,以第二可变长度的字符为单位,将未匹配的所述摘要文本的字符与所述原始文本执行第二匹配处理,获得第二匹配结果。如下将参照图3和图4A-4C详细描述的,在通过半句或整句未能实现所有摘要文本的完全匹配时,根据本公开实施例的摘要文本标注方法将以第二可变长度的字符为单位,进行长度可变的摘要文本的字符的迭代匹配,从而最大程度上找到摘要文本的字符在原始文本中的出处。此外,还存在摘要文本的字符并非源自原始文本的情况,而是在摘要文本生成过程中基于原始文本所额外生成的。根据本公开实施例的摘要文本标注方法在基于半句或整句的第一匹配处理和基于可变长度的字符的第二匹配处理之后,能够确定基于原始文本所额外生成的摘要文本并且进行相应的标注。
在步骤S204中,基于所述第一匹配结果和所述第二匹配结果,标注所述摘要文本的字符与所述原始文本的对应性。在本公开的一个实施例中,所述第一匹配结果和所述第二匹配结果记录了所述摘要文本的字符在原始文本中的对应位置,可以通过不同的可视化方案向用户展示所述摘要文本的字符与所述原始文本的对应性。例如,对于通过第一匹配处理获得的完全匹配的半句或者整句字符、通过第二匹配处理获得的第二可变长度的字符以及通过第一匹配处理和第二匹配处理都未能匹配的生成字符,可以在所述摘要文本和所述原始文本中分别采用不同的可视化标注方案。
图3是进一步图示根据本公开实施例的摘要文本标注方法的流程图;图4A-4C是进一步图示根据本公开实施例的摘要文本标注方法的示意图。下面将参照图3和图4A-4C描述根据本公开实施例的摘要文本标注方法的一个具体示例。
在步骤S301中,以第一预定长度的字符为单位,将所述摘要文本的字符与所述原始文本执行第一匹配处理,获得第一匹配结果。步骤S301与步骤S201相同。在本公开的一个实施例中,所述第一预定长度为所述摘要文本的整句,或者为所述摘要文本的半句。可以根据所述摘要文本的标点符号来确定所述摘要文本的半句或整句。更具地体,从摘要文本起始处开始,以半句或者整句为单位,将所述摘要文本的所有字符与所述原始文本执行第一匹配处理,直到摘要文本的结束处。在所述原始文本中存在与所述摘要文本的半句或整句完全相同的半句或整句,则第一匹配结果将指示所述摘要文本的这个半句或整句匹配成功。
在步骤S302中,判断所述第一匹配结果是否指示所述第一匹配处理之后存在未匹配的所述摘要文本的字符。
在本公开的一个实施例中,如果所述摘要文本的每个半句或整句都与所述原始文本中的相应的半句或整句匹配,则不存在未匹配的所述摘要文本的字符。在此情况下,根据本公开实施例的摘要文本标注方法将进到步骤S309。
与此不同,如果所述摘要文本中存在与所述原始文本不匹配的半句或者整句,则处理进到步骤S303。
如图4A和4B所示,在第一匹配结束处理之后,所述第一匹配结果指示存在两个半句(即,“美国东部时间25日13时20分”和“美航天局说”)在原始文本中直接匹配成功。
在步骤S303中,以第三预定长度的字符为单位,识别所述第三预定长度的所述未匹配的所述摘要文本中的预定词性的词语。在本公开的一个实施例中,所述第三预定长度为摘要文本的半句。也就是说,在每个半句中识别预定词性的词语。在本公开的一个实施例中,预定词性为名词。
如图4A和4C所示,在所述未匹配的所述摘要文本中的每个半句中识别出的名词包括“国际空间站”、“宇航员”、“阿尔法磁谱仪2”、“探测器”和“暗物质”。
在步骤S304中,将所述预定词性的词语与所述原始文本执行第二子匹配处理,获得第二子匹配处理结果。
在步骤S305中,判断所述第二子匹配处理结果是否指示所述预定词性的词语与所述原始文本匹配。第二子匹配的标准与第一匹配相同,在所述原始文本中存在与所述词语完全相同的词语时,则第二子匹配结果将指示匹配成功。
如果在步骤S305中获得肯定结果,则处理进到步骤S306。
在步骤S306中,以所述预定词性的词语为中心,向两边扩展第四预定长度的字符,将扩展后的所述预定词性的词语与所述原始文本执行第二子匹配处理。在本公开的一个实施例中,所述第四预定长度为一个字符。也就是说,以所述预定词性的词语为中心,逐个字符进行扩展。在本公开的另一个实施例中,所述第四预定长度为所述第三预定长度的预定比例。也就是说,在所述第三预定长度为半句的情况下,第四预定长度可以是半句的预定比例,从而加快扩展和匹配的速度。
此后,重复所述扩展和所述第二子匹配处理(即,重复执行S305和S306的扩展、匹配和判断),直到所述第二子匹配处理结果指示扩展后的所述预定词性的词语与所述原始文本不匹配(即,在步骤S305中获得否定结果)。
如图4A和4C所示,对于在步骤S303中识别出的“国际空间站”,仅仅向右扩展一个字符,成为“国际空间站上”时,在原始文本中就不存在相应的匹配了。而对于在步骤S303中识别出的“宇航员”,直到扩展为“两名宇航员完成第四次出舱行走”才无需进一步的扩展和匹配处理了。类似地,对于在步骤S303中识别出的“阿尔法磁谱仪2”,其最终的扩展匹配结果为“完成了“阿尔法磁谱仪2”制冷系统的泄漏检测”;对于在步骤S303中识别出的“探测器”,其最终的扩展匹配结果为“探测器将在下周末再次开始收集数据”;而对于在步骤S303中识别出的“暗物质”,其最终的扩展匹配结果为“寻找宇宙中的暗物质”。
在步骤S305中获得否定结果,即完成所述第二子匹配处理之后,处理进到步骤S307。
在步骤S307中,判断是否还存在未匹配的所述摘要文本的字符。
如果在步骤S307中获得肯定结果,即还存在未匹配的所述摘要文本的字符,则处理进到步骤S308。
在步骤S308中,将未匹配的所述摘要文本的字符与所述原始文本执行第三匹配处理。在本公开的一个实施例中,所述第三匹配处理是将剩余未能匹配的短语与原始文本进行全文匹配。在本公开的一个实施例中,如果未能匹配的短语比较长,可以预先对其进行分词处理。在本公开的一个实施例中,如果未能匹配的短语在原始文本中不存在匹配,则第三匹配结果指示该短语是基于原始文本在摘要提取过程中生成的。
如图4A和4C所示,“上”、“该设备上的”和“以”被第三匹配结果指示为在摘要提取过程中生成的。
此后,处理进到步骤S309中。在步骤S309中,基于第一到第三匹配结果,标注摘要文本的字符与原始文本的对应性。
如图4A-4C所示,对于在第一到第三匹配中识别的句子或字符串,可以使用不同的标注方式进行标注。容易理解的是,如图4A-4C所示的标注方式仅仅是示意性的,而是可以采用任何易于区分的标注方式。
图5是图示根据本公开实施例的摘要文本标注装置的框图。如图5所示,根据本公开实施例的摘要文本标注装置500包括第一匹配单元501、第二匹配单元502、第三匹配单元503和标注单元504。本领域的技术人员理解:这些单元模块可以单独由硬件、单独由软件或者由其组合以各种方式实现,并且本公开不限于它们的任何一个。
所述第一匹配单元501用于以第一预定长度的字符为单位,将所述摘要文本的字符与所述原始文本执行第一匹配处理,获得第一匹配结果。
所述第二匹配单元502用于在所述第一匹配结果指示所述第一匹配处理之后存在未匹配的所述摘要文本的字符时,以第二可变长度的字符为单位,将未匹配的所述摘要文本的字符与所述原始文本执行第二匹配处理,获得第二匹配结果。更具体地,所述第二匹配单元502将所述预定词性的词语与所述原始文本执行第二子匹配处理,获得第二子匹配处理结果;在所述第二子匹配处理结果指示所述预定词性的词语与所述原始文本匹配时,以所述预定词性的词语为中心,向两边扩展第四预定长度的字符,将扩展后的所述预定词性的词语与所述原始文本执行第二子匹配处理;重复所述扩展和所述第二子匹配处理,直到所述第二子匹配处理结果指示扩展后的所述预定词性的词语与所述原始文本不匹配。
所述第三匹配单元503用于在所述第二匹配结果指示所述第二匹配处理之后还存在未匹配的所述摘要文本的字符时,将未匹配的所述摘要文本的字符与所述原始文本执行第三匹配处理。
所述标注单元504用于基于所述第一匹配单元501、所述第二匹配单元502和所述第三匹配单元503的匹配结果,标注所述摘要文本的字符与所述原始文本的对应性。
另外,上述实施方式的说明中使用的框图示出了以功能为单位的块。这些功能块(结构单元)通过硬件和/或软件的任意组合来实现。此外,各功能块的实现手段并不特别限定。即,各功能块可以通过在物理上和/或逻辑上相结合的一个装置来实现,也可以将在物理上和/或逻辑上相分离的两个以上装置直接地和/或间接地(例如通过有线和/或无线)连接从而通过上述多个装置来实现。
例如,本公开的一个实施方式中的摘要文本标注设备可以作为执行本公开的文本处理方法的处理的计算机来发挥功能。图6是图示根据本公开实施例的摘要文本标注设备的硬件框图。如图6所示,摘要文本标注设备600可以作为在物理上包括处理器1001、内存1002、存储器1003、通信装置1004、输入装置1005、输出装置1006、总线1007等的计算机装置来构成。
另外,在以下的说明中,“装置”这样的文字也可替换为电路、设备、单元等。摘要文本标注设备600的硬件结构可以包括一个或多个图中所示的各装置,也可以不包括部分装置。
例如,处理器1001仅图示出一个,但也可以为多个处理器。此外,可以通过一个处理器来执行处理,也可以通过一个以上的处理器同时、依次、或采用其它方法来执行处理。另外,处理器1001可以通过一个以上的芯片来安装。
摘要文本标注设备600中的各功能例如通过如下方式实现:通过将规定的软件(程序)读入到处理器1001、内存1002等硬件上,从而使处理器1001进行运算,对由通信装置1004进行的通信进行控制,并对内存1002和存储器1003中的数据的读出和/或写入进行控制。
处理器1001例如使操作系统进行工作从而对计算机整体进行控制。处理器1001可以由包括与周边装置的接口、控制装置、运算装置、寄存器等的中央处理器(CPU,CentralProcessing Unit)构成。
此外,处理器1001将程序(程序代码)、软件模块、数据等从存储器1003和/或通信装置1004读出到内存1002,并根据它们执行各种处理。作为程序,可以采用使计算机执行在上述实施方式中说明的动作中的至少一部分的程序。例如,电子设备10的控制单元401可以通过保存在内存1002中并通过处理器1001来工作的控制程序来实现,对于其它功能块,也可以同样地来实现。
内存1002是计算机可读取记录介质,例如可以由只读存储器(ROM,Read OnlyMemory)、可编程只读存储器(EPROM,Erasable Programmable ROM)、电可编程只读存储器(EEPROM,Electrically EPROM)、随机存取存储器(RAM,Random Access Memory)、其它适当的存储介质中的至少一个来构成。内存1002也可以称为寄存器、高速缓存、主存储器(主存储装置)等。内存1002可以保存用于实施本公开的实施方式所涉及的无线通信方法的可执行程序(程序代码)、软件模块等。
存储器1003是计算机可读取记录介质,例如可以由软磁盘(flexible disk)、软(注册商标)盘(floppy disk)、磁光盘(例如,只读光盘(CD-ROM(Compact Disc ROM)等)、数字通用光盘、蓝光(Blu-ray,注册商标)光盘)、可移动磁盘、硬盘驱动器、智能卡、闪存设备(例如,卡、棒(stick)、密钥驱动器(key driver))、磁条、数据库、服务器、其它适当的存储介质中的至少一个来构成。存储器1003也可以称为辅助存储装置。
通信装置1004是用于通过有线和/或无线网络进行计算机间的通信的硬件(发送接收设备),例如也称为网络设备、网络控制器、网卡、通信模块等。
输入装置1005是接受来自外部的输入的输入设备(例如,键盘、鼠标、麦克风、开关、按钮、传感器等)。输出装置1006是实施向外部的输出的输出设备(例如,显示器、扬声器、发光二极管(LED,Light Emitting Diode)灯等)。另外,输入装置1005和输出装置1006也可以为一体的结构(例如触控面板)。
此外,处理器1001、内存1002等各装置通过用于对信息进行通信的总线1007连接。总线1007可以由单一的总线构成,也可以由装置间不同的总线构成。
此外,摘要文本标注设备600可以包括微处理器、数字信号处理器(DSP,DigitalSignal Processor)、专用集成电路(ASIC,Application Specific Integrated Circuit)、可编程逻辑器件(PLD,Programmable Logic Device)、现场可编程门阵列(FPGA,FieldProgrammable Gate Array)等硬件,可以通过该硬件来实现各功能块的部分或全部。例如,处理器1001可以通过这些硬件中的至少一个来安装。
软件无论被称为软件、固件、中间件、微代码、硬件描述语言,还是以其它名称来称呼,都应宽泛地解释为是指命令、命令集、代码、代码段、程序代码、程序、子程序、软件模块、应用程序、软件应用程序、软件包、例程、子例程、对象、可执行文件、执行线程、步骤、功能等。
此外,软件、命令、信息等可以经由传输介质被发送或接收。例如,当使用有线技术(同轴电缆、光缆、双绞线、数字用户线路(DSL,Digital Subscriber Line)等)和/或无线技术(红外线、微波等)从网站、服务器、或其它远程资源发送软件时,这些有线技术和/或无线技术包括在传输介质的定义内。
图7是图示根据本公开的实施例的计算机可读存储介质的示意图。如图7所示,根据本公开实施例的计算机可读存储介质700其上存储有计算机程序指令701。当所述计算机程序指令701由处理器运行时,执行如上所述的摘要文本标注方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存、光盘、磁盘等。
以上,参照附图描述了根据本公开的摘要文本标注方法、摘要文本标注装置和摘要文本标注设备以及计算机存储介质。根据本公开的摘要文本标注方法不但能够以整句或半句为单位识别并标注摘要文本与原始文本的对应性,而且能够在更细的粒度上识别并标注摘要文本与原始文本的对应性,以便对于不是从原始文本整句或半句提取的摘要文本,甚至是基于原始文本所生成的摘要文本,实现对应性的识别和标注,从而使得用户能够直观地获知摘要文本在原始文本中的相应位置,获得更好的阅读体验。
本说明书中说明的各方式/实施方式可以单独使用,也可以组合使用,还可以在执行过程中进行切换来使用。此外,本说明书中说明的各方式/实施方式的处理步骤、序列、流程图等只要没有矛盾,就可以更换顺序。例如,关于本说明书中说明的方法,以示例性的顺序给出了各种各样的步骤单元,而并不限定于给出的特定顺序。
本说明书中使用的“根据”这样的记载,只要未在其它段落中明确记载,则并不意味着“仅根据”。换言之,“根据”这样的记载是指“仅根据”和“至少根据”这两者。
本说明书中使用的对使用“第一”、“第二”等名称的单元的任何参照,均非全面限定这些单元的数量或顺序。这些名称可以作为区别两个以上单元的便利方法而在本说明书中使用。因此,第一单元和第二单元的参照并不意味着仅可采用两个单元或者第一单元必须以若干形式占先于第二单元。
在本说明书或权利要求书中使用“包括(including)”、“包含(comprising)”、以及它们的变形时,这些用语与用语“具备”同样是开放式的。进一步地,在本说明书或权利要求书中使用的用语“或(or)”并非是异或。
本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
以上对本发明进行了详细说明,但对于本领域技术人员而言,显然,本发明并非限定于本说明书中说明的实施方式。本发明在不脱离由权利要求书的记载所确定的本发明的宗旨和范围的前提下,可以作为修改和变更方式来实施。因此,本说明书的记载是以示例说明为目的,对本发明而言并非具有任何限制性的意义。

Claims (10)

1.一种摘要文本标注方法,所述摘要文本是基于原始文本生成的,所述摘要文本标注包括:
以第一预定长度的字符为单位,将所述摘要文本的字符与所述原始文本执行第一匹配处理,获得第一匹配结果;
在所述第一匹配结果指示所述第一匹配处理之后存在未匹配的所述摘要文本的字符时,以第二可变长度的字符为单位,将未匹配的所述摘要文本的字符与所述原始文本执行第二匹配处理,获得第二匹配结果;
基于所述第一匹配结果和所述第二匹配结果,标注所述摘要文本的字符与所述原始文本的对应性。
2.如权利要求1所述的摘要文本标注方法,其中,以第二可变长度的字符为单位,将未匹配的所述摘要文本的字符与所述原始文本执行第二匹配处理,获得第二匹配结果包括:
以第三预定长度的字符为单位,识别所述第三预定长度的所述未匹配的所述摘要文本中的预定词性的词语;
将所述预定词性的词语与所述原始文本执行第二子匹配处理,获得第二子匹配处理结果;
在所述第二子匹配处理结果指示所述预定词性的词语与所述原始文本匹配时,以所述预定词性的词语为中心,向两边扩展第四预定长度的字符,将扩展后的所述预定词性的词语与所述原始文本执行第二子匹配处理;
重复所述扩展和所述第二子匹配处理,直到所述第二子匹配处理结果指示扩展后的所述预定词性的词语与所述原始文本不匹配。
3.如权利要求2所述的摘要文本标注方法,其中,所述第四预定长度为一个字符,或者所述第四预定长度为所述第三预定长度的预定比例。
4.如权利要求1到3的任一项所述的摘要文本标注方法,还包括:
在所述第二匹配结果指示所述第二匹配处理之后还存在未匹配的所述摘要文本的字符时,将未匹配的所述摘要文本的字符与所述原始文本执行第三匹配处理。
5.一种摘要文本标注装置,所述摘要文本是基于原始文本生成的,所述摘要文本装置包括:
第一匹配单元,用于以第一预定长度的字符为单位,将所述摘要文本的字符与所述原始文本执行第一匹配处理,获得第一匹配结果;
第二匹配单元,用于在所述第一匹配结果指示所述第一匹配处理之后存在未匹配的所述摘要文本的字符时,以第二可变长度的字符为单位,将未匹配的所述摘要文本的字符与所述原始文本执行第二匹配处理,获得第二匹配结果;
标注单元,用于基于所述第一匹配结果和所述第二匹配结果,标注所述摘要文本的字符与所述原始文本的对应性。
6.如权利要求5所述的摘要文本标注装置,其中,所述第二匹配单元以第三预定长度的字符为单位,识别所述第三预定长度的所述未匹配的所述摘要文本中的预定词性的词语;
将所述预定词性的词语与所述原始文本执行第二子匹配处理,获得第二子匹配处理结果;
在所述第二子匹配处理结果指示所述预定词性的词语与所述原始文本匹配时,以所述预定词性的词语为中心,向两边扩展第四预定长度的字符,将扩展后的所述预定词性的词语与所述原始文本执行第二子匹配处理;
重复所述扩展和所述第二子匹配处理,直到所述第二子匹配处理结果指示扩展后的所述预定词性的词语与所述原始文本不匹配。
7.如权利要求6所述的摘要文本标注装置,其中,所述第四预定长度为一个字符,或者所述第四预定长度为所述第三预定长度的预定比例。
8.如权利要求5到7的任一项所述的摘要文本标注装置,还包括:
第三匹配单元,用于在所述第二匹配结果指示所述第二匹配处理之后还存在未匹配的所述摘要文本的字符时,将未匹配的所述摘要文本的字符与所述原始文本执行第三匹配处理。
9.一种摘要文本标注设备,包括:
存储器,用于存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,使得所述摘要文本标注设备执行如权利要求1-4中的任一项所述的摘要文本标注方法。
10.一种计算机存储介质,用于存储计算机可读指令,当所述计算机可读指令由计算机执行时,使得所述计算机执行如1-4中的任一项所述的摘要文本标注方法。
CN202010117646.3A 2020-02-25 2020-02-25 摘要文本标注方法、装置和设备以及计算机存储介质 Pending CN113378550A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010117646.3A CN113378550A (zh) 2020-02-25 2020-02-25 摘要文本标注方法、装置和设备以及计算机存储介质
JP2020201011A JP2021136008A (ja) 2020-02-25 2020-12-03 要約テキストのタギング方法、装置、デバイス及びコンピュータ記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010117646.3A CN113378550A (zh) 2020-02-25 2020-02-25 摘要文本标注方法、装置和设备以及计算机存储介质

Publications (1)

Publication Number Publication Date
CN113378550A true CN113378550A (zh) 2021-09-10

Family

ID=77569356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010117646.3A Pending CN113378550A (zh) 2020-02-25 2020-02-25 摘要文本标注方法、装置和设备以及计算机存储介质

Country Status (2)

Country Link
JP (1) JP2021136008A (zh)
CN (1) CN113378550A (zh)

Also Published As

Publication number Publication date
JP2021136008A (ja) 2021-09-13

Similar Documents

Publication Publication Date Title
EP3648099B1 (en) Voice recognition method, device, apparatus, and storage medium
US10922990B2 (en) Display apparatus and method for question and answer
CN116775847B (zh) 一种基于知识图谱和大语言模型的问答方法和系统
US9626622B2 (en) Training a question/answer system using answer keys based on forum content
US9064006B2 (en) Translating natural language utterances to keyword search queries
CN113590739B (zh) 基于模型的语义文本搜索
US9959340B2 (en) Semantic lexicon-based input method editor
WO2018186445A1 (ja) 対話システム
US20160078083A1 (en) Image display device, method for driving the same, and computer readable recording medium
WO2023024975A1 (zh) 文本处理方法、装置和电子设备
KR20150130214A (ko) 텍스트를 포함하는 문서 분류 및 분석 방법 및 이를 수행하는 문서 분류 및 분석 장치
CN112037819B (zh) 一种基于语义的语音质检方法和装置
US11994980B2 (en) Method, device and computer program product for application testing
US20240098332A1 (en) Systems and methods to handle queries comprising a media quote
CN108628911A (zh) 针对用户输入的表情预测
WO2019202787A1 (ja) 対話システム
CN105632500A (zh) 语音识别装置及其控制方法
CN113378550A (zh) 摘要文本标注方法、装置和设备以及计算机存储介质
WO2020003928A1 (ja) エンティティ特定システム
US20220335070A1 (en) Method and apparatus for querying writing material, and storage medium
CN112528645A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN113672154B (zh) 页面交互方法、介质、装置和计算设备
KR20160109302A (ko) 지식기반 서비스 시스템, 지식기반 서비스 서버, 지식기반 서비스제공방법 및 컴퓨터 판독가능 기록매체
JP7216199B2 (ja) 対話システム
WO2019187463A1 (ja) 対話サーバ

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination