CN113468853A - 摘要文本标注方法、装置和设备以及计算机存储介质 - Google Patents

摘要文本标注方法、装置和设备以及计算机存储介质 Download PDF

Info

Publication number
CN113468853A
CN113468853A CN202010246932.XA CN202010246932A CN113468853A CN 113468853 A CN113468853 A CN 113468853A CN 202010246932 A CN202010246932 A CN 202010246932A CN 113468853 A CN113468853 A CN 113468853A
Authority
CN
China
Prior art keywords
text
matching
abstract
digest
original text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010246932.XA
Other languages
English (en)
Inventor
郭垿宏
李安新
陈岚
池田大志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to CN202010246932.XA priority Critical patent/CN113468853A/zh
Priority to JP2021010324A priority patent/JP2021163461A/ja
Publication of CN113468853A publication Critical patent/CN113468853A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本公开涉及一种摘要文本标注方法、摘要文本标注装置和摘要文本标注设备以及计算机存储介质。所述摘要文本是基于原始文本生成的,所述摘要文本标注包括:将具有第一数目字符的所述摘要文本的第一部分与所述原始文本执行第一匹配处理,获得第一匹配结果;在所述第一匹配结果指示所述原始文本不存在与所述第一部分匹配的文本时,在所述第一部分中选择具有第二数目字符的所述摘要文本的第二部分,与所述原始文本执行第二匹配处理,获得第二匹配结果;以及基于所述第一匹配结果和所述第二匹配结果,标注所述摘要文本的字符与所述原始文本的对应性。

Description

摘要文本标注方法、装置和设备以及计算机存储介质
技术领域
本公开涉及基于人工智能技术的文本处理领域,并且具体涉及一种摘要文本标注方法、摘要文本标注装置和摘要文本标注设备以及计算机存储介质。
背景技术
自然语言处理(NLP)是人工智能技术重要的应用领域之一。自然语言处理能够让计算机像人一样能够阅读文字,理解文字背后的含义,从而完成机器翻译、自动问答、信息检索、情感分析、自动文本摘要等具体应用。在自然语言处理中,文本摘要提取指的是将一段有明确含义的文本内容进行高度的概括和抽象,生成文本的摘要。基于深度神经网络文本摘要提取系统能够实现不依赖于文本的具体内容、文本长度的文本摘要提取。基于深度神经网络的自然语言处理系统通常在接收到待提取摘要的原始文本之后,直接输出提取之后的摘要文本。然而,用户难以从直接输出的摘要文本中识别出其在原始文本中的位置。例如,如果用户想根据摘要文本的内容再详细阅读原始文本的相应部分,则在原始文本比较长的情况下,难以定位相应部分。
为了向用户直观地展示摘要文本在原始文本中的相应位置,需要将摘要文本逐字符与原始文本进行比较和匹配,在摘要文本和原始文本长的情况下,这样的匹配处理将是非常耗时的。摘要文本中的字符或者字符串可能在原始文本中存在多个匹配位置,需要在多个匹配位置中确定最佳位置。此外,摘要文本中存在生成的字符,需要判断生成的字符是否需要在原始文本中进行匹配。
发明内容
鉴于上述问题而提出了本公开。本公开提供了一种摘要文本标注方法、摘要文本标注装置和摘要文本标注设备以及计算机存储介质。
根据本公开的一个方面,提供了一种摘要文本标注方法,所述摘要文本是基于原始文本生成的,所述摘要文本标注方法包括:将具有第一数目字符的所述摘要文本的第一部分与所述原始文本执行第一匹配处理,获得第一匹配结果;在所述第一匹配结果指示所述原始文本不存在与所述第一部分匹配的文本时,在所述第一部分中选择具有第二数目字符的所述摘要文本的第二部分,与所述原始文本执行第二匹配处理,获得第二匹配结果;以及基于所述第一匹配结果和所述第二匹配结果,标注所述摘要文本的字符与所述原始文本的对应性。
此外,根据本公开一个方面的摘要文本标注方法,还包括:重复执行所述第一匹配处理和所述第二匹配处理的多次循环,直到所有所述摘要文本完成匹配,其中,所述多次循环中的一个循环的第一匹配处理的所述第一数目与前一次循环的第一匹配处理的所述第一数目相同。
此外,根据本公开一个方面的摘要文本标注方法,其中,所述第一数目取决于所述第一部分所处的所述摘要文本的句子的长度。
此外,根据本公开一个方面的摘要文本标注方法,其中,基于所述第一匹配结果和所述第二匹配结果,标注所述摘要文本的字符与所述原始文本的对应性包括:在所述第一匹配结果或所述第二匹配结果指示所述第一部分或所述第二部分在所述原始文本中存在多个匹配位置时,基于所述多个匹配位置的所述原始文本与所述第一部分或所述第二部分的相邻部分的相似度,从所述多个匹配位置确定最佳匹配位置。
此外,根据本公开一个方面的摘要文本标注方法,还包括:对于所述摘要文本中的预定长度的生成字符,判断所述生成字符是否有实际含义,并且对于无实际含义的所述生成字符,不执行所述第一匹配处理和所述第二匹配处理。
根据本公开的另一个方面,提供了一种摘要文本标注装置,所述摘要文本是基于原始文本生成的,所述摘要文本装置包括:第一匹配单元,将具有第一数目字符的所述摘要文本的第一部分与所述原始文本执行第一匹配处理,获得第一匹配结果;第二匹配单元,在所述第一匹配结果指示所述原始文本不存在与所述第一部分匹配的文本时,在所述第一部分中选择具有第二数目字符的所述摘要文本的第二部分,与所述原始文本执行第二匹配处理,获得第二匹配结果;标注单元,基于所述第一匹配结果和所述第二匹配结果,标注所述摘要文本的字符与所述原始文本的对应性。
此外,根据本公开另一个方面的摘要文本标注装置,其中,所述第一匹配单元和所述第二匹配单元分别重复执行所述第一匹配处理和所述第二匹配处理的多次循环,直到所有所述摘要文本完成匹配,其中,所述多次循环中的一个循环的第一匹配处理的所述第一数目与前一次循环的第一匹配处理的所述第一数目相同。
此外,根据本公开另一个方面的摘要文本标注装置,其中,所述第一数目取决于所述第一部分所处的所述摘要文本的句子的长度。
此外,根据本公开另一个方面的摘要文本标注装置,其中,所述标注单元在所述第一匹配结果或所述第二匹配结果指示所述第一部分或所述第二部分在所述原始文本中存在多个匹配位置时,基于所述多个匹配位置的所述原始文本与所述第一部分或所述第二部分的相邻部分的相似度,从所述多个匹配位置确定最佳匹配位置。
此外,根据本公开另一个方面的摘要文本标注装置,其中,所述第一匹配单元和所述第二匹配单元对于所述摘要文本中的预定长度的生成字符,判断所述生成字符是否有实际含义,并且对于无实际含义的所述生成字符,不执行所述第一匹配处理和所述第二匹配处理。
根据本公开的又一个方面,提供了一种摘要文本标注设备,包括:存储器,用于存储计算机可读指令;以及处理器,用于运行所述计算机可读指令,使得所述摘要文本标注设备执行如上所述的摘要文本标注方法。
根据本公开的再一个方面,提供了一种计算机存储介质,用于存储计算机可读指令,当所述计算机可读指令由计算机执行时,使得所述计算机执行如上所述的摘要文本标注方法。
如以下将详细描述的,根据本公开的摘要文本标注方法、摘要文本标注装置和摘要文本标注设备以及计算机存储介质,在将摘要文本与原始文本进行匹配的过程中,无需逐字符进行匹配处理,而是以长度可变的摘要文本的不同部分与原始文本进行匹配处理,从而提高了匹配和标注处理的速度。在原始文本中存在与摘要文本匹配的多个位置时,能够选择多个位置中的最佳位置作为匹配结果进行标注。此外,对于摘要文本中的预定长度的生成字符,根据其是否有实际含义确定是否对其执行匹配处理,从而避免了不必要的匹配处理,进一步提升了匹配和处理的速度。根据本公开的摘要文本标注方法使得用户能够快速、直观地获知摘要文本在原始文本中的相应位置,获得更好的阅读体验。
要理解的是,前面的一般描述和下面的详细描述两者都是示例性的,并且意图在于提供要求保护的技术的进一步说明。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是概述根据本公开实施例的摘要文本标注方法的应用场景的示意图;
图2是图示根据本公开实施例的摘要文本标注方法的流程图;
图3A和3B是图示根据本公开实施例的摘要文本标注方法的示意图;
图4是进一步图示根据本公开实施例的摘要文本标注方法的流程图;
图5A-5D是进一步图示根据本公开实施例的摘要文本标注方法的示意图;
图6A和6B是进一步图示根据本公开实施例的摘要文本标注方法的示意图;
图7是图示根据本公开实施例的摘要文本标注装置的框图;
图8是图示根据本公开实施例的摘要文本标注设备的硬件框图;以及
图9是图示根据本公开的实施例的计算机可读存储介质的示意图。
具体实施方式
为了使得本公开的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
首先,参照图1描述根据本公开实施例的摘要文本标注方法的应用场景。
图1是概述根据本公开实施例的摘要文本标注方法的应用场景的示意图。如图1所示,根据本公开实施例的摘要文本标注方法可以应用于自然语言处理系统10。自然语言处理系统10配置有自然语言处理装置100。自然语言处理装置100经由通信网络103与用户101a-101c各自的用户设备102a-102c执行数据通信。
自然语言处理装置100包括但不限于配置有大数据处理能力和大容量数据存储能力的服务器装置,诸如搜索引擎服务器、内容提供服务器等。用户设备102a-102c包括但不限于笔记本计算机、台式计算机、智能电话、平板电脑等具有数据处理能力的移动终端或者固定终端。通信网络103包括但不限于遵循诸如传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)和/或文件传输协议(FTP)配置的互联网、IPTV网络、无线保真(Wi-Fi)网络、无线局域网(WLAN)、局域网(LAN)和/或城域网(MAN)等。
在本公开的一个实施例中,自然语言处理系统10例如是摘要文本生成系统。例如,当新闻服务提供商提供新闻信息的时候,不管是提供单一新闻还是提供聚合新闻,用户有时候不想看全文,或者看很多相关新闻,但还希望看到一篇摘要。作为摘要文本生成系统的自然语言处理系统10可以通过全篇幅语义分析,将整篇新闻精简成一个有明确标题并配有几句概述的新闻摘要文本。在用户看到新闻摘要文本时,如果想根据摘要文本的内容再详细阅读原始文本的相应部分,则希望自然语言处理系统10能够对于新闻摘要文本在原始文本中的具体位置进行标注。
在本公开的一个实施例中,自然语言处理装置100例如为摘要文本生成器。自然语言处理装置100接收由用户设备102a-102c通过通信网络103提出的摘要文本生成请求,自然语言处理装置100基于全篇幅语义分析,自动提取并且生成摘要文本,并且向用户101a-101c提供生成的摘要文本。
如下将详细描述的,在自然语言处理系统10实现的根据本公开实施例的摘要文本标注方法,在将摘要文本与原始文本进行匹配的过程中,无需逐字符进行匹配处理,而是以长度可变的摘要文本的不同部分与原始文本进行匹配处理,从而提高了匹配和标注处理的速度。在原始文本中存在与摘要文本匹配的多个位置时,能够选择多个位置中的最佳位置作为匹配结果进行标注。此外,对于摘要文本中的预定长度的生成字符,根据其是否有实际含义确定是否对其执行匹配处理,从而避免了不必要的匹配处理,进一步提升了匹配和处理的速度。根据本公开的摘要文本标注方法使得用户能够快速、直观地获知摘要文本在原始文本中的相应位置,获得更好的阅读体验。
以下,将参照图2到图3B描述根据本公开实施例的摘要文本标注方法。图2是图示根据本公开实施例的摘要文本标注方法的流程图。图3A是图示根据本公开实施例的摘要文本标注方法的示意图。
如图2所示,根据本公开实施例的摘要文本标注方法包括以下步骤。
在步骤S201中,将具有第一数目字符的摘要文本的第一部分与原始文本执行第一匹配处理,获得第一匹配结果。在本公开的一个实施例中,所述摘要文本是基于所述原始文本生成的。不同于将摘要文本与原始文本逐字符执行匹配,而是采用将摘要文本分部分的匹配方式。
例如,如图3A所示,假设原始文本是W1W2W3W5W6W9W7,生成的摘要文本是W3W5W9W7,其中W表示一个字符。
如图3B所示,在根据本公开实施例的摘要文本标注方法中,将具有第一数目字符的摘要文本的第一部分作为待匹配文本与原始文本执行第一匹配处理,即将具有3个字符的摘要文本的第一部分W3W5W9与原始文本W1W2W3W5W6W9W7执行第一匹配处理。
返回参照图2,在步骤S202中,判断第一匹配处理指示第一匹配是否成功。
如果在步骤S202中获得肯定结果,即第一匹配成功,则处理进到步骤S204,以便基于第一匹配结果,标注摘要文本的字符(第一部分)与原始文本的对应性。如果在步骤S202中获得否定结果,即第一匹配失败,则处理进到步骤S203。
在步骤S203中,在所述第一部分中选择具有第二数目字符的所述摘要文本的第二部分,与所述原始文本执行第二匹配处理,获得第二匹配结果。
如图3B所示,将具有3个字符的摘要文本的第一部分W3W5W9与原始文本W1W2W3W5W6W9W7执行第一匹配处理,由于原始文本W1W2W3W5W6W9W7中不存在与第一部分W3W5W9匹配的部分,第一匹配失败。在第一部分W3W5W9中选择具有第二数目字符的所述摘要文本的第二部分W3W5,与所述原始文本执行第二匹配处理,获得第二匹配结果。第二匹配结果显示在原始文本中存在与第二部分W3W5匹配的部分。
返回参照图2,在步骤S203之后,处理进到步骤S204。在步骤S204中,基于所述第一匹配结果和所述第二匹配结果,标注所述摘要文本的字符与所述原始文本的对应性。
如后将参照图4描述的,在摘要文本包括多个第一部分的情况下,处理将返回以便重复执行匹配处理,直到完成摘要文本的所有字符的匹配。
如图3B所示,在第一轮的第一匹配处理和第二匹配处理之后,摘要文本还有W9W7需要执行匹配。在第二轮的第一匹配处理中,将具有2个字符的摘要文本的第一部分W9W7与原始文本W1W2W3W5W6W9W7执行第一匹配处理,并且匹配成功。如下将参照图4到图5D描述的。第二轮的第一匹配处理中的第一部分的字符长度可以与前次的第一匹配处理中的第一部分的字符长度相同,也可能基于本次待匹配的第一部分所处摘要文本句子的长度。
在参照图2到图3B描述的根据本公开实施例的摘要文本标注方法中,以长度可变的摘要文本的不同部分与原始文本进行匹配处理,具体地,通过3次匹配处理完成了图3A和3B中的示例匹配。而对于同样的示例,如果采用逐字符匹配处理,则需要至少4次匹配处理。因此,根据本公开实施例的摘要文本标注方法减少了匹配处理的次数,从而提高了匹配和标注处理的速度。
以下,将参照图4到图5D进一步描述根据本公开实施例的摘要文本标注方法。图4是进一步图示根据本公开实施例的摘要文本标注方法的流程图;图5A-5D是进一步图示根据本公开实施例的摘要文本标注方法的示意图。
图4所示的步骤S401到步骤S403与图2所示的步骤S201到步骤S203相同,在此将省略其重复描述。在步骤S403之后,处理进到步骤S404。在步骤S404中,判断是否还存在未匹配的摘要文本的字符。
如果在步骤S404中获得肯定结果,即还存在未匹配的摘要文本字符,则处理返回步骤S401,再次执行分部分的摘要文本匹配。如果在步骤S404中获得否定结果,即不存在未匹配的摘要文本字符,则处理进到步骤S405,以便基于所述第一匹配结果和所述第二匹配结果,标注所述摘要文本的字符与所述原始文本的对应性。
图5A和5B示出了第二轮的第一匹配处理中的第一部分的字符长度可以与前次的第一匹配处理中的第一部分的字符长度相同的实施例。
如图5A所示,假设原始文本是W1W2W3W5W6W9W7W8,生成的摘要文本是W3W5W9W7W8,其中W表示一个字符。
如图5B所示,将具有3个字符的摘要文本的第一部分W3W5W9与原始文本W1W2W3W5W6W9W7W8执行第一匹配处理,由于原始文本W1W2W3W5W6W9W7W8中不存在与第一部分W3W5W9匹配的部分,第一匹配失败。在第一部分W3W5W9中选择具有第二数目字符的所述摘要文本的第二部分W3W5,与所述原始文本执行第二匹配处理,获得第二匹配结果。第二匹配结果显示在原始文本中存在与第二部分W3W5匹配的部分。
如图5B所示,在第一轮的第一匹配处理和第二匹配处理之后,摘要文本还有W9W7W8需要执行匹配。在第二轮的第一匹配处理中,将具有3个字符的摘要文本的第一部分W9W7W8与原始文本W1W2W3W5W6W9W7W8执行第一匹配处理,并且匹配成功。也就是说,第二轮的第一匹配处理中的第一部分的字符长度与前次的第一匹配处理中的第一部分的字符长度相同。
图5C和5D示出了第一匹配处理中的第一部分的字符长度基于本次待匹配的第一部分所处摘要文本句子的长度实施例。
如图5C所示,假设原始文本是W1W2W3W5W6W9W7W8,生成的摘要文本是W2W3.W6W9W7W8,其中W表示一个字符。
如图5D所示,根据所处摘要文本句子的长度,将具有2个字符的摘要文本的第一部分W2W3与原始文本W1W2W3W5W6W9W7W8执行第一匹配处理,由于原始文本W1W2W3W5W6W9W7W8中存在与第一部分W2W3匹配的部分,第一匹配成功。
如图5D所示,在第一轮的第一匹配处理之后,摘要文本还有W6W9W7W8需要执行匹配。在第二轮的第一匹配处理中,根据所处摘要文本句子的长度,将具有4个字符的摘要文本的第一部分W6W9W7W8与原始文本W1W2W3W5W6W9W7W8执行第一匹配处理,并且匹配成功。
图6A和6B是进一步图示根据本公开实施例的摘要文本标注方法的示意图。
具体地,图6A示出了原始文本,图6B示出了从该原始文本生成的摘要文本。如图6A和6B所示,对于摘要文本中的“奥林匹克运动会”,通过匹配处理在原始文本中存在多处与其匹配的“奥林匹克运动会”。
根据本公开实施例的摘要文本标注方法将进一步考虑所述多个匹配位置的所述原始文本与所述第一部分或所述第二部分的相邻部分的相似度。如图6B所示,摘要文本中的“奥林匹克运动会”的相邻部分为“发源于两千多年前的”,在原始文本中多处“奥林匹克运动会”中,存在一处的相邻部分具有最大相似度。因此,选择原始文本中具有最大相似度的匹配文本作为最佳匹配位置,如由图6A和6B中的方框所示。
此外,根据本公开实施例的摘要文本标注方法对于所述摘要文本中的预定长度的生成字符,判断所述生成字符是否有实际含义,并且对于无实际含义的所述生成字符,不执行所述第一匹配处理和所述第二匹配处理。
具体地,如图6B所示,摘要文本中包括生成字符“在”。可以通过词性判断所述生成字符是否有实际含义。在此情况下,生成字符“在”不是名词,没有实际含义,因此对于无实际含义的所述生成字符“在”,可以不执行其与原始文本的匹配处理。
在参照图6A和6B描述的根据本公开实施例的摘要文本标注方法中,在原始文本中存在与摘要文本匹配的多个位置时,能够选择多个位置中的最佳位置作为匹配结果进行标注。此外,对于摘要文本中的预定长度的生成字符,根据其是否有实际含义确定是否对其执行匹配处理,从而避免了不必要的匹配处理,进一步提升了匹配和处理的速度。
图7是图示根据本公开实施例的摘要文本标注装置的框图。如图7所示,根据本公开实施例的摘要文本标注装置700包括第一匹配单元701、第二匹配单元702和标注单元703。本领域的技术人员理解:这些单元模块可以单独由硬件、单独由软件或者由其组合以各种方式实现,并且本公开不限于它们的任何一个。
所述第一匹配单元701用于将具有第一数目字符的所述摘要文本的第一部分与所述原始文本执行第一匹配处理,获得第一匹配结果。
所述第二匹配单元702用于在所述第一匹配结果指示所述原始文本不存在与所述第一部分匹配的文本时,在所述第一部分中选择具有第二数目字符的所述摘要文本的第二部分,与所述原始文本执行第二匹配处理,获得第二匹配结果。
所述标注单元703用于基于所述第一匹配结果和所述第二匹配结果,标注所述摘要文本的字符与所述原始文本的对应性。
所述第一匹配单元701和所述第二匹配单元702分别重复执行所述第一匹配处理和所述第二匹配处理的多次循环,直到所有所述摘要文本完成匹配,其中,所述多次循环中的一个循环的第一匹配处理的所述第一数目与前一次循环的第一匹配处理的所述第一数目相同。此外,所述第一数目取决于所述第一部分所处的所述摘要文本的句子的长度。所述标注单元703在所述第一匹配结果或所述第二匹配结果指示所述第一部分或所述第二部分在所述原始文本中存在多个匹配位置时,基于所述多个匹配位置的所述原始文本与所述第一部分或所述第二部分的相邻部分的相似度,从所述多个匹配位置确定最佳匹配位置。所述第一匹配单元701和所述第二匹配单元702对于所述摘要文本中的预定长度的生成字符,判断所述生成字符是否有实际含义,并且对于无实际含义的所述生成字符,不执行所述第一匹配处理和所述第二匹配处理。
另外,上述实施方式的说明中使用的框图示出了以功能为单位的块。这些功能块(结构单元)通过硬件和/或软件的任意组合来实现。此外,各功能块的实现手段并不特别限定。即,各功能块可以通过在物理上和/或逻辑上相结合的一个装置来实现,也可以将在物理上和/或逻辑上相分离的两个以上装置直接地和/或间接地(例如通过有线和/或无线)连接从而通过上述多个装置来实现。
例如,本发明的一个实施方式中的摘要文本标注设备可以作为执行本发明的文本处理方法的处理的计算机来发挥功能。图8是图示根据本公开实施例的摘要文本标注设备的硬件框图。如图8所示,摘要文本标注设备800可以作为在物理上包括处理器1001、内存1002、存储器1003、通信装置1004、输入装置1005、输出装置1006、总线1007等的计算机装置来构成。
另外,在以下的说明中,“装置”这样的文字也可替换为电路、设备、单元等。摘要文本标注设备600的硬件结构可以包括一个或多个图中所示的各装置,也可以不包括部分装置。
例如,处理器1001仅图示出一个,但也可以为多个处理器。此外,可以通过一个处理器来执行处理,也可以通过一个以上的处理器同时、依次、或采用其它方法来执行处理。另外,处理器1001可以通过一个以上的芯片来安装。
摘要文本标注设备800中的各功能例如通过如下方式实现:通过将规定的软件(程序)读入到处理器1001、内存1002等硬件上,从而使处理器1001进行运算,对由通信装置1004进行的通信进行控制,并对内存1002和存储器1003中的数据的读出和/或写入进行控制。
处理器1001例如使操作系统进行工作从而对计算机整体进行控制。处理器1001可以由包括与周边装置的接口、控制装置、运算装置、寄存器等的中央处理器(CPU,CentralProcessing Unit)构成。
此外,处理器1001将程序(程序代码)、软件模块、数据等从存储器1003和/或通信装置1004读出到内存1002,并根据它们执行各种处理。作为程序,可以采用使计算机执行在上述实施方式中说明的动作中的至少一部分的程序。
内存1002是计算机可读取记录介质,例如可以由只读存储器(ROM,Read OnlyMemory)、可编程只读存储器(EPROM,Erasable Programmable ROM)、电可编程只读存储器(EEPROM,Electrically EPROM)、随机存取存储器(RAM,Random Access Memory)、其它适当的存储介质中的至少一个来构成。内存1002也可以称为寄存器、高速缓存、主存储器(主存储装置)等。内存1002可以保存用于实施本发明的一实施方式所涉及的无线通信方法的可执行程序(程序代码)、软件模块等。
存储器1003是计算机可读取记录介质,例如可以由软磁盘(flexible disk)、软(注册商标)盘(floppy disk)、磁光盘(例如,只读光盘(CD-ROM(Compact Disc ROM)等)、数字通用光盘、蓝光(Blu-ray,注册商标)光盘)、可移动磁盘、硬盘驱动器、智能卡、闪存设备(例如,卡、棒(stick)、密钥驱动器(key driver))、磁条、数据库、服务器、其它适当的存储介质中的至少一个来构成。存储器1003也可以称为辅助存储装置。
通信装置1004是用于通过有线和/或无线网络进行计算机间的通信的硬件(发送接收设备),例如也称为网络设备、网络控制器、网卡、通信模块等。
输入装置1005是接受来自外部的输入的输入设备(例如,键盘、鼠标、麦克风、开关、按钮、传感器等)。输出装置1006是实施向外部的输出的输出设备(例如,显示器、扬声器、发光二极管(LED,Light Emitting Diode)灯等)。另外,输入装置1005和输出装置1006也可以为一体的结构(例如触控面板)。
此外,处理器1001、内存1002等各装置通过用于对信息进行通信的总线1007连接。总线1007可以由单一的总线构成,也可以由装置间不同的总线构成。
此外,摘要文本标注设备800可以包括微处理器、数字信号处理器(DSP,DigitalSignal Processor)、专用集成电路(ASIC,Application Specific Integrated Circuit)、可编程逻辑器件(PLD,Programmable Logic Device)、现场可编程门阵列(FPGA,FieldProgrammable Gate Array)等硬件,可以通过该硬件来实现各功能块的部分或全部。例如,处理器1001可以通过这些硬件中的至少一个来安装。
软件无论被称为软件、固件、中间件、微代码、硬件描述语言,还是以其它名称来称呼,都应宽泛地解释为是指命令、命令集、代码、代码段、程序代码、程序、子程序、软件模块、应用程序、软件应用程序、软件包、例程、子例程、对象、可执行文件、执行线程、步骤、功能等。
此外,软件、命令、信息等可以经由传输介质被发送或接收。例如,当使用有线技术(同轴电缆、光缆、双绞线、数字用户线路(DSL,Digital Subscriber Line)等)和/或无线技术(红外线、微波等)从网站、服务器、或其它远程资源发送软件时,这些有线技术和/或无线技术包括在传输介质的定义内。
图9是图示根据本公开的实施例的计算机可读存储介质的示意图。如图9所示,根据本公开实施例的计算机可读存储介质900其上存储有计算机程序指令901。当所述计算机程序指令901由处理器运行时,执行如上所述的摘要文本标注方法。所述计算机可读存储介质包括但不限于例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存、光盘、磁盘等。
以上,参照附图描述了根据本公开的摘要文本标注方法、摘要文本标注装置和摘要文本标注设备以及计算机存储介质。根据本公开的摘要文本标注方法在将摘要文本与原始文本进行匹配的过程中,无需逐字符进行匹配处理,而是以长度可变的摘要文本的不同部分与原始文本进行匹配处理,从而提高了匹配和标注处理的速度。在原始文本中存在与摘要文本匹配的多个位置时,能够选择多个位置中的最佳位置作为匹配结果进行标注。此外,对于摘要文本中的预定长度的生成字符,根据其是否有实际含义确定是否对其执行匹配处理,从而避免了不必要的匹配处理,进一步提升了匹配和处理的速度。根据本公开的摘要文本标注方法使得用户能够快速、直观地获知摘要文本在原始文本中的相应位置,获得更好的阅读体验。
本说明书中说明的各方式/实施方式可以单独使用,也可以组合使用,还可以在执行过程中进行切换来使用。此外,本说明书中说明的各方式/实施方式的处理步骤、序列、流程图等只要没有矛盾,就可以更换顺序。例如,关于本说明书中说明的方法,以示例性的顺序给出了各种各样的步骤单元,而并不限定于给出的特定顺序。
本说明书中使用的“根据”这样的记载,只要未在其它段落中明确记载,则并不意味着“仅根据”。换言之,“根据”这样的记载是指“仅根据”和“至少根据”这两者。
本说明书中使用的对使用“第一”、“第二”等名称的单元的任何参照,均非全面限定这些单元的数量或顺序。这些名称可以作为区别两个以上单元的便利方法而在本说明书中使用。因此,第一单元和第二单元的参照并不意味着仅可采用两个单元或者第一单元必须以若干形式占先于第二单元。
在本说明书或权利要求书中使用“包括(including)”、“包含(comprising)”、以及它们的变形时,这些用语与用语“具备”同样是开放式的。进一步地,在本说明书或权利要求书中使用的用语“或(or)”并非是异或。
本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
以上对本发明进行了详细说明,但对于本领域技术人员而言,显然,本发明并非限定于本说明书中说明的实施方式。本发明在不脱离由权利要求书的记载所确定的本发明的宗旨和范围的前提下,可以作为修改和变更方式来实施。因此,本说明书的记载是以示例说明为目的,对本发明而言并非具有任何限制性的意义。

Claims (12)

1.一种摘要文本标注方法,所述摘要文本是基于原始文本生成的,所述摘要文本标注方法包括:
将具有第一数目字符的所述摘要文本的第一部分与所述原始文本执行第一匹配处理,获得第一匹配结果;
在所述第一匹配结果指示所述原始文本不存在与所述第一部分匹配的文本时,在所述第一部分中选择具有第二数目字符的所述摘要文本的第二部分,与所述原始文本执行第二匹配处理,获得第二匹配结果;以及
基于所述第一匹配结果和所述第二匹配结果,标注所述摘要文本的字符与所述原始文本的对应性。
2.如权利要求1所述的摘要文本标注方法,还包括:
重复执行所述第一匹配处理和所述第二匹配处理的多次循环,直到所有所述摘要文本完成匹配,
其中,所述多次循环中的一个循环的第一匹配处理的所述第一数目与前一次循环的第一匹配处理的所述第一数目相同。
3.如权利要求1所述的摘要文本标注方法,其中,所述第一数目取决于所述第一部分所处的所述摘要文本的句子的长度。
4.如权利要求1到3的任一项所述的摘要文本标注方法,其中,基于所述第一匹配结果和所述第二匹配结果,标注所述摘要文本的字符与所述原始文本的对应性包括:
在所述第一匹配结果或所述第二匹配结果指示所述第一部分或所述第二部分在所述原始文本中存在多个匹配位置时,基于所述多个匹配位置的所述原始文本与所述第一部分或所述第二部分的相邻部分的相似度,从所述多个匹配位置确定最佳匹配位置。
5.如权利要求1到3的任一项所述的摘要文本标注方法,还包括:
对于所述摘要文本中的预定长度的生成字符,判断所述生成字符是否有实际含义,并且
对于无实际含义的所述生成字符,不执行所述第一匹配处理和所述第二匹配处理。
6.一种摘要文本标注装置,所述摘要文本是基于原始文本生成的,所述摘要文本装置包括:
第一匹配单元,将具有第一数目字符的所述摘要文本的第一部分与所述原始文本执行第一匹配处理,获得第一匹配结果;
第二匹配单元,在所述第一匹配结果指示所述原始文本不存在与所述第一部分匹配的文本时,在所述第一部分中选择具有第二数目字符的所述摘要文本的第二部分,与所述原始文本执行第二匹配处理,获得第二匹配结果;
标注单元,基于所述第一匹配结果和所述第二匹配结果,标注所述摘要文本的字符与所述原始文本的对应性。
7.如权利要求6所述的摘要文本标注装置,其中,所述第一匹配单元和所述第二匹配单元分别重复执行所述第一匹配处理和所述第二匹配处理的多次循环,直到所有所述摘要文本完成匹配,
其中,所述多次循环中的一个循环的第一匹配处理的所述第一数目与前一次循环的第一匹配处理的所述第一数目相同。
8.如权利要求6所述的摘要文本标注装置,其中,所述第一数目取决于所述第一部分所处的所述摘要文本的句子的长度。
9.如权利要求6到8的任一项所述的摘要文本标注装置,其中,所述标注单元在所述第一匹配结果或所述第二匹配结果指示所述第一部分或所述第二部分在所述原始文本中存在多个匹配位置时,基于所述多个匹配位置的所述原始文本与所述第一部分或所述第二部分的相邻部分的相似度,从所述多个匹配位置确定最佳匹配位置。
10.如权利要求6到8的任一项所述的摘要文本标注装置,其中,所述第一匹配单元和所述第二匹配单元对于所述摘要文本中的预定长度的生成字符,判断所述生成字符是否有实际含义,并且
对于无实际含义的所述生成字符,不执行所述第一匹配处理和所述第二匹配处理。
11.一种摘要文本标注设备,包括:
存储器,用于存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,使得所述摘要文本标注设备执行如权利要求1-5中的任一项所述的摘要文本标注方法。
12.一种计算机存储介质,用于存储计算机可读指令,当所述计算机可读指令由计算机执行时,使得所述计算机执行如1-5中的任一项所述的摘要文本标注方法。
CN202010246932.XA 2020-03-31 2020-03-31 摘要文本标注方法、装置和设备以及计算机存储介质 Pending CN113468853A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010246932.XA CN113468853A (zh) 2020-03-31 2020-03-31 摘要文本标注方法、装置和设备以及计算机存储介质
JP2021010324A JP2021163461A (ja) 2020-03-31 2021-01-26 要約テキストのタギング方法及びその装置、デバイス及びコンピュータ記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010246932.XA CN113468853A (zh) 2020-03-31 2020-03-31 摘要文本标注方法、装置和设备以及计算机存储介质

Publications (1)

Publication Number Publication Date
CN113468853A true CN113468853A (zh) 2021-10-01

Family

ID=77866072

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010246932.XA Pending CN113468853A (zh) 2020-03-31 2020-03-31 摘要文本标注方法、装置和设备以及计算机存储介质

Country Status (2)

Country Link
JP (1) JP2021163461A (zh)
CN (1) CN113468853A (zh)

Also Published As

Publication number Publication date
JP2021163461A (ja) 2021-10-11

Similar Documents

Publication Publication Date Title
JP6820058B2 (ja) 音声認識方法、装置、デバイス、及び記憶媒体
WO2022088672A1 (zh) 基于bert的机器阅读理解方法、装置、设备及存储介质
WO2017123785A1 (en) User interface for multivariate searching
US10783885B2 (en) Image display device, method for driving the same, and computer readable recording medium
US9959340B2 (en) Semantic lexicon-based input method editor
WO2020186828A1 (zh) 应用程序快捷跳转方法、装置、电子设备和存储介质
CN109857901B (zh) 信息展示方法和装置、以及用于信息搜索的方法和装置
US20210312919A1 (en) Conversation device
CN113051919B (zh) 一种识别命名实体的方法和装置
CN108628911A (zh) 针对用户输入的表情预测
WO2021097629A1 (zh) 数据处理方法、装置、电子设备和存储介质
CN112528645A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
KR101333064B1 (ko) 멀티미디어 콘텐츠 기술자 추출시스템 및 그 방법
CN113468853A (zh) 摘要文本标注方法、装置和设备以及计算机存储介质
WO2019202787A1 (ja) 対話システム
CN113672154B (zh) 页面交互方法、介质、装置和计算设备
CN114595696A (zh) 实体消歧方法、实体消歧装置、存储介质与电子设备
CN113378550A (zh) 摘要文本标注方法、装置和设备以及计算机存储介质
WO2019187463A1 (ja) 対話サーバ
US20200081922A1 (en) Data analysis method and data analysis system thereof
JP7216199B2 (ja) 対話システム
WO2023286340A1 (ja) 情報処理装置および情報処理方法
US11003697B2 (en) Cluster computing system and method for automatically generating extraction patterns from operational logs
CN107340968B (zh) 一种基于手势来播放多媒体文件的方法、设备和计算机可读存储介质
JP2007047859A (ja) 文章解析方法、文章解析プログラム、文章解析装置、および文章解析システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination