CN112347767B - 一种文本处理方法、装置及设备 - Google Patents

一种文本处理方法、装置及设备 Download PDF

Info

Publication number
CN112347767B
CN112347767B CN202110018456.0A CN202110018456A CN112347767B CN 112347767 B CN112347767 B CN 112347767B CN 202110018456 A CN202110018456 A CN 202110018456A CN 112347767 B CN112347767 B CN 112347767B
Authority
CN
China
Prior art keywords
sequence
relation
reference sequence
grammar
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110018456.0A
Other languages
English (en)
Other versions
CN112347767A (zh
Inventor
刘志煌
胡林红
罗朝亮
朱虹
王苑瑜
李小宁
王利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110018456.0A priority Critical patent/CN112347767B/zh
Publication of CN112347767A publication Critical patent/CN112347767A/zh
Application granted granted Critical
Publication of CN112347767B publication Critical patent/CN112347767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例公开了一种文本处理方法、装置及设备。其中的方法包括:获取待识别的目标文本;对目标文本进行语法关系分析,得到目标文本对应的目标语法关系序列;将目标语法关系序列与参考序列模式集合中的各个参考序列模式进行匹配,选取与目标语法关系序列相匹配的匹配序列模式;获取目标语法关系序列中处于第m个参考语法关系标识后的目标语法关系标识,并将目标文本中与目标语法关系标识对应的字符确定为人名字符。本申请实施例可以更好地从文本中识别出人名实体,提高人名识别的准确性。

Description

一种文本处理方法、装置及设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本处理方法、一种文本处理装置及一种文本处理设备。
背景技术
许多应用场景(例如,画像构建场景、图谱建设场景、事件挖掘场景、舆情分析场景等等)均涉及人名识别。所谓人名识别可以是指在待识别的文本(或字段)中识别出人名实体的过程。
现有技术中,进行人名识别的方法主要包括以下几种:①基于序列标注的人名识别方法,这种识别方法把人名识别问题看成是一个简单的序列标注的问题;这种简单标注的方式,使得人名识别的准确性较低。②基于循环神经网络的人名识别方法,这种识别方法是基于复杂网络训练的前提下进行的,效率较低,且依赖于人工指定上下文规则,存在灵活性较差、查全率较低及移植性能不好等问题。③基于统计模型的人名识别方法,这种识别方法基于ngram(即一种基于统计语言模型的算法)模型进行人名识别,不能提供较充分的参考特征,容易造成人名实体的误判,人名识别的准确性较低。综上可见,现有进行人名识别方法均存在准确性低的问题,因此,如何从待识别的文本中较为精准地识别出人名实体,成为研究的重要话题。
发明内容
本申请实施例提供一种文本处理方法、装置及设备,可以更好地从文本中识别出人名实体,提高人名识别的准确性。
一方面,本申请实施例提供一种文本处理方法,该方法包括:
获取待识别的目标文本,目标文本包括多个字符;
对目标文本进行语法关系分析,得到目标文本对应的目标语法关系序列,目标语法关系序列包括多个按序排列的语法关系标识;
将目标语法关系序列与参考序列模式集合中的各个参考序列模式进行匹配,选取与目标语法关系序列相匹配的匹配序列模式;其中,匹配序列模式包括N个参考标识,N个参考标识包括人名标识和M个参考语法关系标识,N和M均为大于1的整数且M小于N;目标语法关系序列包括M个参考语法关系标识,且M个参考语法关系标识在目标语法关系序列中的排列顺序与M个参考语法关系标识在匹配序列模式中的排列顺序相同;其中,参考序列模式集合是基于样本文本集进行序列模式挖掘得到的;
获取目标语法关系序列中处于第m个参考语法关系标识后的目标语法关系标识,并将目标文本中与目标语法关系标识对应的字符确定为人名字符;其中,m大于等于1且小于等于M,在匹配序列模式中人名标识排列在第m个参考语法关系标识后。
本申请实施例中,能够对待识别的样本文本进行语法关系分析,得到目标语法关系序列,这能得到待识别的目标文本的语法规则,这些语法规则作为参考信息可帮助在目标文本中定位和抽取人名字符。另外,还将语法关系分析得到的目标语法关系序列与参考序列模式集合中的各个参考序列模式进行匹配,选取出与目标语法关系序列相匹配的匹配序列模式,进而根据匹配序列模式识别出目标文本中的人名字符。因此,本申请实施例可更好地从目标语法关系序列中识别人名字符,提高人名识别的准确性。
另一方面,本申请实施例提供一种文本处理方法,该方法包括:
获取样本文本集,样本文本集中包含多个具有人名字符标注的样本文本;
对样本文本集中每个样本文本进行语法关系分析,得到训练语法关系序列集合,训练语法关系序列集合中包括每个样本文本对应的训练语法关系序列;
根据训练语法关系序列集合对样本文本集进行序列模式挖掘,得到参考序列模式集合。
本申请实施例中,预先对获取的样本文本集进行语法关系序列模式挖掘(包括语法关系分析和序列模式挖掘),得到参考序列模式集合,参考序列模式集合中包含多个参考序列模式,所谓参考序列模式可以理解为可以作为参考的语法关系序列模式,其中,语法关系可以包括词性组合关系、语义依存关系以及句法关系。上述过程中,由于参考序列模式集合是对包含人名字符的大量样本文本进行语法关系序列模式挖掘得到的,表明参考序列模式集合中涵盖了大量的包含人名实体的文本应具有的多个序列模式,样本文本的数量越多,参考序列模式集合中得到的参考序列模式越多,在后续基于参考序列模式集合中各个参考序列模式对待识别文本进行识别时,准确性越高。
另一方面,本申请实施例提供一种文本处理装置,该装置包括:
获取单元,用于获取待识别的目标文本,目标文本包括多个字符;
处理单元,用于对目标文本进行语法关系分析,得到目标文本对应的目标语法关系序列,目标语法关系序列包括多个按序排列的语法关系标识;
处理单元,还用于将目标语法关系序列与参考序列模式集合中的各个参考序列模式进行匹配,选取与目标语法关系序列相匹配的匹配序列模式;其中,匹配序列模式包括N个参考标识,N个参考标识包括人名标识和M个参考语法关系标识,N和M均为大于1的整数且M小于N;目标语法关系序列包括M个参考语法关系标识,且M个参考语法关系标识在目标语法关系序列中的排列顺序与M个参考语法关系标识在匹配序列模式中的排列顺序相同;其中,参考序列模式集合是基于样本文本集进行序列模式挖掘得到的;
处理单元,还用于获取目标语法关系序列中处于第m个参考语法关系标识后的目标语法关系标识,并将目标文本中与目标语法关系标识对应的字符确定为人名字符;其中,m大于等于1且小于等于M,在匹配序列模式中人名标识排列在第m个参考语法关系标识后。
另一方面,本申请实施例提供一种文本处理装置,该装置包括:
获取单元,用于获取样本文本集,样本文本集中包含多个具有人名字符标注的样本文本;
处理单元,用于对样本文本集中每个样本文本进行语法关系分析,得到训练语法关系序列集合,训练语法关系序列集合中包括每个样本文本对应的训练语法关系序列;以及,根据训练语法关系序列集合对样本文本集进行序列模式挖掘,得到参考序列模式集合。
另一方面,本申请实施例提供一种文本处理设备,包括:
处理器,适于执行计算机程序;
计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时,实现如上述的文本处理方法。
另一方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,该计算机程序适于由处理器加载并执行如上述的文本处理方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。文本处理设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该文本处理设备执行上述的文本处理方法。
本申请实施例能够对待识别的目标文本进行语法关系分析,得到目标文本中隐含的语法规则,这些语法规则作为参考信息可帮助在目标文本中定位和抽取人名字符。在语法关系分析之后,还将语法关系分析得到的目标语法关系序列与参考序列模式集合中的各个参考序列模式进行匹配,选取出与目标语法关系序列相匹配的匹配序列模式,进而根据匹配序列模式识别出目标文本中的人名字符。由于参考序列模式集合是对包含人名字符的大量样本文本进行语法关系序列模式挖掘得到的,这种训练方式提高了参考序列模式的准确性,进而将目标语法关系序列与准确性较高的各个参考序列模式进行匹配,可更好地从目标语法关系序列中识别人名字符,提高人名识别的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a示出了本申请一个示例性实施例提供的一种文本处理方法的流程示意图;
图1b示出了本申请一个示例性实施例提供的一种文本处理系统的架构示意图;
图2示出了本申请一个示例性实施例提供的一种文本处理方法的流程示意图;
图3示出了本申请一个示例性实施例提供的一种语法关系分析的结果的示意图;
图4a示出了本申请一个示例性实施例提供的另一种语法关系分析的结果的示意图;
图4b示出了本申请一个示例性实施例提供的另一种语法关系分析的结果的示意图;
图4c示出了本申请一个示例性实施例提供的另一种语法关系分析的结果的示意图;
图5示出了本申请一个示例性实施例提供的一种确定候选参考序列模式的示意图;
图6示出了本申请一个示例性实施例提供的一种计算候选参考序列模式集合的置信度的示意图;
图7示出了本申请一个示例性实施例提供的一种确定匹配序列模式的示意图;
图8示出了本申请一个示例性实施例提供的一种确定匹配序列模式的示意图;
图9示出了本申请一个示例性实施例提供的另一种文本处理方法的流程示意图;
图10示出了本申请一个示例性实施例提供的一种文本处理装置的结构示意图;
图11示出了本申请一个示例性实施例提供的另一种文本处理装置的结构示意图;
图12示出了本申请一个示例性实施例提供的一种文本处理设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例涉及文本信息识别,文本信息识别是指从待识别的文本中识别出目标信息(如人名实体、地名信息、时间信息等等)的过程。其中,文本是指一种书面语言的表现形式;文本中可包括多个字符,一个或多个字符组成目标信息,字符可包括以下至少一种:中文字符(即汉字)、英文字符(即字母)、数字和标点符号(如逗号“,”、句号“。”、方括号“【】”),等等。例如,待识别的文本为“歌曲的作曲是小明”,该待识别的文本包括多个中文字符(如歌、曲、的、作等等)。当信息识别是识别文本中的人名实体(即人名字符)时,将从文本中识别出人名实体的过程称为人名识别。承接上述例子,对待识别的文本“歌曲的作曲是小明”进行人名识别,可识别出人名实体“小明”。人名识别具有重要意义。例如,通过识别金融类资讯、论坛观点等语料的人名实体,能够挖掘人物舆论观点、分析市场行情等,从而为事件挖掘、舆情分析等应用创造价值。又如,在社交画像挖掘和图谱构建上,通过构建用户画像、识别人名,能够进一步构建关系链和人物图谱,从而进行社交推荐、关系网营销等应用。因此,人名识别被广泛应用于关系挖掘和实体抽取等领域,具有较为广泛的应用价值和参考价值。
目前,对文本进行人名识别的方法可以包括如下几种,其中:(1)基于序列标注的人名识别方法。这种人名识别方法是对文本进行序列标注来识别人名实体的,即根据观察序列预测最优隐含状态蓄力;例如标记定义为:姓用字符B表示、名中字用字符I表示,名尾字用字符E表示,文本中其他字用字符O表示,根据上述的标记定义,可以得到“看小明演出”的序列标注为“OBIEOO”,并采用最佳路线规则来确定出序列标注中的人名实体。(2)基于复杂的神经网络模型或统计模型(如ngram模型等)的人名识别方法。例如,基于循环神经网络模式的人名识别方法,又如,基于统计模型的人名识别方法。经过实践表明,上述几种方法都存在共同的缺点,就是人名实体的识别准确性较低。
发明人在对人名实体的研究中发现,人名实体识别相较于一般实体识别(如文本类型识别)更具有特殊性,这种特殊性体现于人名实体所在文本的文本结构具有相同或相似的语法结构,这一特殊性对于在文本中定位人名实体具有一定优势。例如文本为“音乐才子小明”(人名实体为“小明”),又如文本为“集团的创始人是小花”(人名实体是“小花”),这些文本中人名实体所在上下文的结构相似(如句法规则均为动词后接名词)。因此,如果挖掘文本中隐含的语法规则,能够更准确地定位和识别文本中的人名实体。
基于此发现,本申请实施例提出一种文本处理方案,该文本处理方案能够较为精准地从待识别文本中识别出人名实体,提高人名识别的准确性。该文本处理方案的基本流程可参见图1a,图1a示出了本申请一个示例性实施例提供的一种文本处理方案的流程示意图;如图1a所示,该文本处理方案可包括两部分,分别为确定参考序列模式集合的过程和识别待识别的目标文本中的人名实体的过程。下面结合图1a所示的流程,对文本处理方案的主要原理进行简要阐述:(1)确定参考序列模式集合,这部分的主要作用是通过对大量的样本文本进行语法关系序列模式挖掘,来发现大多数包含人名实体的文本具有的相同或者相似的序列模式。可选的,确定参考序列模式集合的大致流程可以是:预先对获取的样本文本集进行语法关系序列模式挖掘(包括语法关系分析和序列模式挖掘),得到参考序列模式集合,参考序列模式集合中包含多个参考序列模式,所谓参考序列模式可以理解为可以作为参考的语法关系序列模式,其中,语法关系可以包括词性组合关系、语义依存关系以及句法关系。上述过程中,由于参考序列模式集合是对包含人名字符的大量样本文本进行语法关系序列模式挖掘得到的,表明参考序列模式集合中涵盖了大量的包含人名实体的文本应具有的多个序列模式,样本文本的数量越多,参考序列模式集合中得到的参考序列模式越多,在后续基于参考序列模式集合中各个参考序列模式对待识别文本进行识别时,准确性越高。(2)识别待识别的目标文本中的人名实体:当存在人名识别需求时,对待识别的目标文本进行语法关系分析处理,得到目标语法关系序列,并将目标语法关系序列与预先得到的参考序列模式集合中的各个参考序列模式进行匹配,得到目标语法关系序列相匹配的匹配序列模式,再基于匹配序列模式从目标文本中识别出人名字符。上述过程中,通过对目标文本进行语法关系分析,可挖掘得到目标文本隐含的语法规则,这些隐含的语法规则可帮助在目标文本中定位和抽取人名字符;并且,由于参考序列模式集合是对包含人名字符的大量样本文本进行语法关系序列模式挖掘得到的,这种训练方式提高了参考序列模式的准确性,表明参考序列模式集合中涵盖了大量的包含人名实体的文本应具有的多个序列模式,进而将目标语法关系序列与准确性较高的各个参考序列模式进行匹配,可更好地从目标语法关系序列中识别人名字符,提高人名识别的准确性。
需要说明的是,本申请实施例以人名实体识别为例进行介绍,但可以理解的是,其他信息识别可参照本申请实施例涉及的相关方案,本申请对其他信息识别场景不作详细阐述,在此进行说明。
上述提及的文本处理方案可由计算机设备(或文本处理设备)执行。此处的计算机设备可包括但不限于:诸如智能手机、平板电脑、膝上计算机、台式电脑等终端设备;或者,诸如数据处理服务器、web服务器、应用服务器等服务设备,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,这里的服务器可以是区块链上的节点服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端设备以及服务设备可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
下面结合图1b来对本申请实施例涉及的文本处理方案的人名识别场景进行示例性介绍。请参见图1b,图1b示出了本申请一个示例性实施例提供的一种文本处理系统的架构示意图;假设计算机设备101为诸如智能手机、平板电脑、膝上计算机、台式电脑等终端设备,计算机设备102为诸如数据处理服务器、web服务器、应用服务器等服务设备。在这种情况下,计算机设备101可以是指用于接收用户输入待识别的目标文本的终端设备,计算机设备102可以是指用于为计算机设备101提供应用服务和技术支持的服务设备。本申请实施例提及的文本处理方案可由计算机设备101或计算机设备102单独来执行,也可由计算机设备101和计算机设备102交互执行。换句话说,计算机设备101可执行确定参考序列模式集合以及人名识别的操作;或者,计算机设备102可执行确定参考序列模式集合的操作,并将参考序列模式集合分享至计算机设备101,由计算机设备101来执行人名识别的操作;又或者,计算机设备102可执行确定参考序列模式集合以及人名识别的操作。
下面以计算机设备101和计算机设备102交互执行本申请实施例提及的文本处理方案为例,来对人名识别场景进行较为详细的阐述,其中:
首先,当存在人名识别需求时,计算机设备101响应于用户的人名识别请求,在计算机设备101的显示屏幕中显示文本接收页面1011,文档接收页面1011用于接收用户输入的待识别的目标文本;文本接收页面1011中还显示有提交控件(或按键、按钮),当提交控件被触发时,计算机设备101将待识别的目标文本发送至计算机设备102。需要说明的是,用户除采用上述方式将待识别的目标文本上传以外,还可以从计算机设备的本地存储空间或互联网空间中选取文本作为待识别的目标文本,本申请实施例对计算机设备获取待识别的目标文本的具体实现方式不做限定。
其次,计算机设备102获取待识别的目标文本,并对目标文本进行语法关系分析,得到目标文本对应的目标语法关系序列。其中,目标语法关系序列包括M个参考语法关系标识;一个参考语法关系标识与目标文本中的一个字符或字段(包括多个字符)相对应,当在目标语法关系序列中选定某一参考语法关系标识时,可从目标文本中确定出该参考语法关系标识对应的字符或字段。另外,计算机设备102还从数据库1021中获取参考序列模式集合,并将目标语法关系序列与参考序列模式集合中各个参考序列模式进行匹配,选取出与目标语法关系序列相匹配的匹配序列模式。与前述描述的目标语法关系序列包含多个语法关系标识类似,这里的匹配序列模式是由N个参考标识组成的,包括人名标识(即指示人名实体)和M个参考语法关系标识,在匹配序列模式中人名标识排列在第m个参考语法关系标识后;N和M均为大于1的整数且M小于N,m大于等于1且小于等于M。其中,目标语法关系标识与匹配序列模式相匹配可以是指:目标语法关系序列包括匹配序列模式所包含的M个参考语法关系标识,且M个参考语法关系标识在目标语法关系序列中的排列顺序与M个参考语法关系标识在匹配序列模式中的排列顺序相同。
最后,计算机设备102获取目标语法关系序列中处于第m个参考语法关系标识后的目标语法关系标识,并将目标文本中与目标语法关系标识对应的字符确定为人名字符。计算机设备102还可以将人名识别之后的目标文本返回给计算机设备101,以便于计算机设备101在显示屏幕中显示人名识别处理后的目标文档。其中,在目标文档中可高亮显示人名字符,所谓高亮显示可以是指以亮度高于其他字符的亮度显示人名字符,或者,以颜色区别于其他字符的颜色显示该人名字符,等等。当然,计算机设备102也可以将目标文档中人名字符的位置返回给计算机设备101,这样计算机设备101在显示屏幕中直接显示人名字符在目标文档的位置;例如,计算机设备101的显示屏幕中显示提示信息:“人名字符位置为:第X行,第Y列”。本申请实施例对计算机设备101具体如何显示人名字符的位置的形式不作限定。
值得一提的是,除上述描述的人名识别场景以外,其他人名识别场景(例如,计算机设备101接收到待识别的目标文本后,计算机设备101执行文本处理方案)同样属于本申请实施例保护的范围,在此进行说明。
下面结合附图2详细介绍本申请提出的文本处理方案。图2示出了本申请一个示例性实施例提供的一种文本处理方法的流程示意图。该文本处理方案可以由图1b所示系统的计算机设备来执行。如图2所示,该文本处理方案可包括步骤S201-步骤S204,其中:
S201、获取待识别的目标文本。
目标文本可包括多个字符,这些字符不限于中文字符、英文字符、标点符号等等;例如,目标文本为“作为集团的CEO,小花提出建议”,该目标文本中包括多个中文字符,如:作、为、集、团、的……;英文字符,如:E、O、T;以及标点符号“,”。计算机设备可检测是否存在人名识别的触发事件,若存在触发事件,则获取到待识别的目标文本。其中,当计算机设备检测到新的目标文本的事件时,表示检测到存在人名识别的触发事件;例如,从其他设备(如终端设备、服务器)接收到新的目标文本的事件,或者计算机设备检测到用户触发的发送目标文本的事件,又或者计算机设备生成一个新的目标文本的事件。在此实施方式下,计算机设备可将检测到的新的目标文本作为待识别的目标文本。
S202、对目标文本进行语法关系分析,得到目标文本对应的目标语法关系序列。
对目标文本进行语法关系分析,可得到目标文本的上下文之间隐含的语法规则,这些语法规则可作为参考信息帮助在目标文本中定位或抽取人名字符。通常用于对目标文本进行语法关系分析的语法关系类型可包括:词性关系、句法关系及语义依存关系等等。当采用的不同语法关系类型对目标文本进行语法关系分析时,目标文本对应的目标语法关系序列也有所不同。例如:语法关系类型为词性关系时,采用词性关系对目标文本进行词性关系分析得到的目标语法关系序列可展现为词性语法关系序列,如目标文本为“歌曲的作曲是小明”,该目标文本包括字符“歌”、“曲”、“的”、“作”、“是”、“小”“明”,对该目标文本进行词性关系分析后,可知两个字符组成的字段“小明”及“作曲”的词性均为名词(英文缩写为n),字符“是”的词性为动词(英文缩写为v),字符“的”的词性为不可数名词(英文缩写为u),则将目标文本的各个字符(或字段)对应的词性按照各个字符(或字段)在目标文本中的排列顺序进行排列,可得到目标文本对应的词性语法关系序列“/n/u/n/v/n”。需要说明的是,为了便于描述,本申请实施例将组成目标语法关系序列的每个词性,如“/n”、“/u”、“/v”……称为语法关系标识,即目标语法关系序列是由多个按序排列的语法关系标识组成的。当然,涉及到其他语法关系类型时,语法关系标识表现为语法关系类型对应的形式(如语法关系类型为句法关系时,语法关系标识表现为ATT等形式),在此进行说明。
为了更好地对目标文本进行语法关系分析,本申请实施例支持在对目标文本进行语法关系分析之前,先对目标文本进行分词处理,得到至少两个词,再对分词得到的各个词进行词性分析。分词处理的目的是将较长的文本(或字段)分为较短的字段(即词或词语),这样便于对文本的理解;例如:较长的字段为:小明来到太湖市,对该字段进行分词处理可得到:小明/来到/太湖/市。常见的分词处理方法可包括但不限于:基于词典的分词方法,是按照一定的策略将待关联的字符串和一个已建立好的“充分大的”词典库中的词进行关联,若找到某个词,则说明关联成功,识别了该词。基于统计的分词方法,是对文本所包含的各个字进行标注训练,不仅考虑词语出现的频率,还考虑上下文。基于理解的分词方法,是通过让计算机模拟人对文本的理解,达到识别文本中的词的效果。本申请实施例对具体采用哪一种或多种分词方法不作限定。
例如,以待识别的目标文本为“歌曲的作曲是小明”为例,该目标文本经过分词处理之后,得到分词处理之后的文本“歌曲/的/作曲/是/小明”。可知,待识别的目标文本被进行分词处理之后,较长的文本被划分为一个一个的词,有些词如“小明”作为一个整体存在,这样便于后续对目标文本进行语法关系分析,如将“小明”作为一个名词进行词性标注,得到目标语法关系序列。
在对目标文本进行分词之后,可采用语法规则类型对分词处理之后的目标文本进行语法关系分析。正如前述所描述的,采用不同的语法关系类型对目标文本进行语法关系分析时,可得到不同形式的目标语法关系序列,“不同形式”可体现为目标语法关系序列所包含的语法关系标识的展现形式的不同。本申请实施例在此给出三种语法关系类型,分别为词性关系、句法关系以及语义依存关系;当然,语法关系类型还可包括其他类型,本申请实施例以上述三种示例性进行介绍。其中:
(1)词性关系,用于分析目标文本的上下文之间的词性组合关系。此处的词性是对词(或词语)进行语法分类划分的结果;例如,中文字符的词性可包括但不限于:名词(英文缩写为n)、动词(英文缩写为v)、助词(简写为u)、方位词(简写为f)、代词(简写为p);又如,标点符号“,”在词性关系分析时简写为“w”;等等。可以理解的是,通过对目标文本进行词性关系分析,可挖掘上下文之间隐含的语法关系;例如,目标文本中的动词后面大概率会接名词,而人名字符的词性为名词,这样可为从目标文本中识别出人名字符提供有益的参考信息。
例如,以待识别的目标文本“歌曲的作曲是小明”为例,该目标文本经过分词处理之后,得到分词处理之后的文本“歌曲/的/作曲/是/小明”;对分词处理后的文本进行词性分析,可得词性分析结果为“歌曲/n 的/u 作曲/n 是/v 小明/n”。换句话说,对各个词进行词性标注,可得到目标文本中各个词的词性,进而确定目标文本的目标语法关系序列为“/n/u /n /v /n”,该目标语法关系序列包括多个语法关系标识,如:/n、/u、/n、/v、/n,且各个语法关系标识在目标语法关系序列中按照语法关系标识对应的词在目标文本中的排列顺序进行排序。这样通过判断语法关系标识在目标语法关系序列中的排序位置,即可确定该语法关系标识对应的词在目标文本中的排序位置;基于此,当确定人名标识在目标语法关系序列中的排序位置时,可推导出人名标识对应的人名字符在目标文本中的排序位置,即实现从目标文本中识别人名实体的功能。
(2)句法关系(Dependency Parsing,DP),句法关系也可称依存句法规则关系,通过分析文本中语法成分之间的依存关系揭示目标文本的句法结构;换句话说,句法关系分析可识别目标文本中的“主谓宾”、“定状补”这些语法成分,并分析各语法成分之间的关系。例如,目标文本为“我吃苹果”,该目标文本中“我”的语法成分为主语,“吃”的语法成分为谓语,“苹果”的语法成分为“宾语”。
对目标文本进行句法关系分析(或称句法分析序列标注)时遵循从前到后,先远后近的标注原则;在对目标文本进行句法分析序列标注时遵循这样的原则,可得到目标文本中各个词唯一的语法成分,且词的语法成分是正确的语法成分,提高最终得到的目标语法关系序列模式的正确性。下面结合图3来介绍句法分析序列标注的原理,请参见图3,图3示出了本申请一个示例性实施例提供的一种语法关系分析的结果的示意图;如图3所示,待识别的目标文本为“歌曲的作曲是小明”,对该目标文本进行分词处理得到分词处理之后的文本为“歌曲/的/作曲/是/小明”。句法关系分析的流程可包括:首先,遵循从前到后的原则,先对目标文本中的第一个词,即“歌曲”进行句法关系分析,得到“歌曲”存在两个句法关系,分别为ATT(即定中关系)和RAD(即右附加关系),其中,ATT为“歌曲”与“作曲”的句法关系,RAD为“歌曲”与“的”的句法关系;其次,遵循先远后近的原则可知,“作曲”在目标文本中的排序位置与“歌曲”之间的距离,远于“的”在目标文本中的排序位置与“歌曲”之间的距离,所以保留“歌曲”的ATT关系;最后,对目标文本中每个词进行上述过程,可得到“歌曲的作曲是小明”的目标语法关系序列为“HED ATT RAD SBV VOB”,该目标语法关系序列的语法关系标识包括:HED、ATT、RAD、SBV(即主谓关系)、VOB(即动宾关系)。其中,目标语法关系序列的第一个语法关系标识为“HED”,用于指示一个目标语法关系序列的起点。换句话说,“HED”作为一个标识符存在于目标语法关系序列的第一个位置,该标识符用于标识目标文本的起点,表征位于“HED”之后语法关系标识是目标语法关系序列的语法关系标识。
(3)语义依存关系(Semantic Dependency Parsing,SDP),可分析文本中各语法成分之间的语义关联,并将语义关联以依存结构进行呈现。相比于(2)中提及的句法关系而言,语义依存关系着重于分析文本所包含的各个词之间的语义关联,不需要去抽象文本所包含的词的本身,而是通过分析词所承受的语义框架来描述该词。
需要说明的是,对目标文本进行语义依存关系分析的原则与句法关系分析时的原则一致。下面结合图4a、图4b及图4c来介绍语义依存关系分析的原理,图4a示出了本申请一个示例性实施例提供的另一种语法关系分析的结果的示意图;图4b示出了本申请一个示例性实施例提供的另一种语法关系分析的结果的示意图;图4c示出了本申请一个示例性实施例提供的另一种语法关系分析的结果的示意图;其中,如图4a所示,当待识别的目标文本为“歌曲的作曲是小明”时,遵循从前到后,先远后近的标注原则,得到“歌曲的作曲是小明”的目标语法关系序列为“Root FEAT mDEPD EXP LINK”。如图4b所示,当待识别的目标文本为“作为集团的CTO,小亮提出建议”时,遵循从前到后,先远后近的标注原则,得到“作为集团的CTO,小亮提出建议”的目标语法关系序列为“Root mRELA FEAT mDEPD DATV mPUNC AGTCONT”。如图4c所示,当待识别的目标文本为“除了集团的高管外,小高也发表观点”时,遵循从前到后,先远后近的标注原则,得到“除了集团的高管外,小高也发表观点”的目标语法关系序列为“Root mRELA FEAT mDEPD DATV mPUNCmDEPD AGT mDEPD CONT”。其中,上述三个目标语法关系序列的第一个语法关系标识为“Root”,与语法关系标识“HED”类似,语法关系标识“Root”可作为一个标识符,用于指示一个目标语法关系序列的起点。
需要说明的是,本申请实施例以上述三种语法关系类型示例性地介绍对目标文本进行语法关系分析的过程。可以理解的是,采用其他语法关系类型同样是本申请实施例所支持的,并且用于分析目标文本的语法关系类型越多,就越能够给后续的操作提供参考信息,在此对其他语法关系类型不作阐述。
S203、将目标语法关系序列与参考序列模式集合中的各个参考序列模式进行匹配,选取目标语法关系序列相匹配的匹配序列模式。
参考序列模式集合是事先对样本文本集(包含多个具有人名字符标注的样本文本)进行语法关系序列模式挖掘(包括语法关系分析和序列模式挖掘)得到。具体来说,参考序列模式集合是基于样本文本集对应的训练语法关系序列集合对样本文本集就那些序列模式挖掘得到的,其中,样本文本集包括多个具有人名字符标注的样本文本,样本文本集对应的训练语法关系序列集合是对样本文本集中每个样本文本进行语法关系分析得到的。换句话说,对样本文本集进行语法关系序列模式挖掘得到参考序列模式集合的大概流程可包括:采用一种或多种语法关系类型对样本文本集中的每个样本文本进行语法关系分析,得到训练语法关系序列集合;根据训练语法关系序列集合对样本文本集进行序列模式挖掘,得到参考序列模式集合。需要说明的是,对样本文本集进行语法关系序列模式挖掘的具体实现方式可参见后续实施例的相关描述,在此进行说明。基于上述描述的,当采用不同的语法关系类型对样本文本集进行语法关系分析以及序列模式挖掘时,可得到每种语法关系类型下的参考序列模式子集,每一参考序列模式子集中只包含属于同一种语法关系类型的参考序列模式。换句话说,参考序列模式集合中的各个参考序列模式,按照每个参考序列模式所属的语法关系类型不同,被划分为多个参考序列模式子集。以步骤S202中所描述的三种语法关系类型为例,参考序列模式集合中的各个参考序列模式被划分为词性参考序列模式子集、语义关系参考序列模式子集和句法关系参考序列模式子集。其中,词性参考序列模式子集中包含样本文本集中样本文本进行词性关系分析得到的目标语法关系序列,语义关系参考序列模式子集中包含样本文本集中样本文本进行语义依存关系分析得到的目标语法关系序列,句法关系参考序列模式子集中包含样本文本集中样本文本进行句法关系分析得到的目标语法关系序列。
基于上述描述,步骤S203中提及的将目标语法关系序列与参考序列模式集合中的各个参考序列模式进行匹配,是指将属于同一语法关系类型的目标语法关系序列与参考序列模式子集中各个参考序列模式进行匹配。下面以任一语法关系类型下的目标语法关系序列与该语法关系类型下的参考序列模式子集中各参考序列模式进行匹配为例进行介绍;在这种情况下,将目标语法关系序列称为第一类语法关系序列,将目标语法关系序列与参考序列模式集合中的各个参考序列模式进行匹配的过程可包括步骤s11-s13:
s11,分析第一类语法关系序列所包含的多个语法关系标识,以及各个语法关系标识之间的排列顺序。例如,第一类语法关系序列为“/n /u /n /v /n”,可知第一类语法关系序列所包含的语法关系标识包括:/n、/u、/n、/v、/n,各语法关系标识之间的排列顺序为:/n→/u→/n→/v→/n。
s12,从参考序列模式集合中获取与第一类语法关系序列的语法关系类型相同的第一参考序列模式子集(如词性参考序列模式子集、语义关系参考序列模式子集或句法关系参考序列模式子集),该第一参考序列模式子集中包含与第一类语法关系序列属于同一语法关系类型的参考序列模式;从第一参考序列模式子集中筛选出包含目标语法关系序列所包含的多个语法关系标识、且各语法关系标识在参考序列模式中的排列顺序与各语法关系标识在目标语法关系序列中的排列顺序相同的参考序列模式,将这部分参考序列模式作为候选参考序列模式,并将这些候选参考序列模式添加至候选参考序列模式集合中。举例来说,请参见图5,图5示出了本申请一个示例性实施例提供的一种确定候选参考序列模式的示意图;如图5所示,目标语法关系序列为“/n /u /n /v /n”,词性参考序列模式子集中包含的参考序列模式可包括:参考序列模式1“/n /f /p /u /n /v /n”、参考序列模式2“/n/u /n”、参考序列模式3“/n /f /u /p /n /w /v /n”、参考序列模式4“/u /n /v /n”及参考序列模式5“/p /n /u /n /v /n”;采用上述匹配方式可知,参考序列模式1、参考序列模式3以及参考序列模式5中包含目标语法关系序列中的语法关系标识“/n、/u、/n、/v、/n”,且各语法关系标识之间的排列顺序为:/n→/u→/n→/v→/n,则将参考序列模式1、参考序列模式3以及参考序列模式5作为候选参考序列模式,并将参考序列模式1、参考序列模式3以及参考序列模式5添加至候选参考序列模式集合。
s13,从候选参考序列模式集合中选取匹配序列模式。
从候选参考序列模式集合中选取匹配序列模式是基于候选参考序列模式的支持度来选取的。需要说明的是,预先对样本文本集进行语法关系序列模式挖掘得到的参考序列模式集合中的任一个参考序列模式均对应一个支持度,参考序列模式的支持度用于反映参考序列模式在样本文本集中出现的频率(即次数)。换句话说,计算参考序列模式的支持度,即是分析在样本文本集中该参考序列模式出现的次数;参考序列模式的支持度越大,表示该参考序列模式在样本文本集中出现的次数越多,那么根据该参考序列模式中的人名标识推导出目标文本中的人名字符的准确性越高。这种通过计算参考序列模式的支持度,来对参考序列模式的准确性进行校验,可确定后续根据支持度选取的匹配序列模式是与目标语法关系序列较为相匹配的参考序列模式,进而提高人名识别的准确性。
基于此,从候选参考序列模式集合中选取匹配序列模式的方法可包括:获取候选参考序列模式集合中每个参考序列模式对应的支持度;计算候选参考序列模式集合中支持度大于支持度阈值的候选参考序列模式的第一数量,以及,计算候选参考序列模式集合包含的候选参考序列模式的总数量;将第一数量与总数量进行相除运算,得到候选参考序列模式集合的置信度;若候选参考序列模式集合的置信度大于置信度阈值,则将候选参考序列模式集合中支持度最高的候选参考序列模式确定为匹配序列模式。其中,候选参考序列模式集合的置信度用于反映该候选参考序列模式集合中支持度大于支持度阈值的候选参考序列模式所占的比例。当候选参考序列模式集合的置信度大于置信度阈值时,表示根据该候选参考序列模式集合中的部分候选参考序列模式(如支持度最高的候选参考序列模式)识别出目标文本中的人名字符的准确性较高。候选参考序列模式集合的置信度越高,则根据该候选参考序列模式集合来识别出目标文本中的人名字符的可信度越高。需要说明的是,当用百分比来表示候选参考序列模式集合的置信度时,置信度的数值范围为[0,100%]。
下面给出例子来对上述描述的从候选参考序列模式集合中选取匹配序列模式的过程进行较为详细的解释。请参见图6,图6示出了本申请一个示例性实施例提供的一种计算候选参考序列模式集合的置信度的示意图;如图6所示,假设支持度阈值为60%,置信度阈值为60%,目标文本为“歌曲的作曲是小明”;目标文本对应的目标语法关系序列为“/n /u /n /v /n”,候选参考序列模式集合中包含的候选参考序列模式可包括:候选参考序列模式1“/n /f /p /u /n /v /n”、候选参考序列模式2“/n /f /u /p /n /w /v /n”、及候选参考序列模式3“/p /n /u /n /v /n”、候选参考序列模式4“/n /u /n /w /v /n”;其中,候选参考序列模式1的支持度为50%、候选参考序列模式2的支持度为70%、候选参考序列模式3的支持度为65%、候选参考序列模式4的支持度为80%;综上可知:候选参考序列模式1的支持度50%<支持度阈值60%、候选参考序列模式2的支持度70%>支持度阈值60%、候选参考序列模式3的支持度65%>支持度阈值60%、候选参考序列模式4的支持度80%>支持度阈值60%,所以支持度大于支持度阈值的候选参考序列模式包括候选参考序列模式2、候选参考序列模式3、候选参考序列模式4,即支持度大于支持度阈值的候选参考序列模式的数量为3,得出候选参考序列模式集合的置信度为75%,大于置信度阈值60%。在这种情况下,将候选参考序列模式集合中支持度最大的候选参考序列模式,即候选参考序列模式4确定为匹配序列模式。
需要说明的是,步骤s11-s13以目标文本的一种目标语法关系序列与参考序列模式子集进行匹配,此时候选参考序列模式集合中只包含属于同一语法关系类型的参考序列模式;在这种实现方式下,如果计算候选参考序列模式集合的置信度大于置信度阈值,则能够从候选参考序列模式集合中选取出匹配序列模式,可避免对目标文本执行多次的语法关系分析,可减小能源损耗,提高人名识别效率。但当候选参考序列模式集合的置信度小于或等于置信度阈值,则不能够从候选参考序列模式集合中选取出目标语法关系序列相匹配的匹配序列模式,此时还需要确定第二类语法关系序列(即采用另一种语法关系类型对目标文本进行语法分析得到的语法关系序列)所属的语法关系类型,并从参考序列模式集合中获取与第二类语法关系序列的语法关系类型对应的第二参考序列模式子集;并将第二参考序列模式子集中与第二类语法关系序列相匹配的参考序列模式作为候选参考序列模式添加到前述的候选参考序列模式集合中;这样候选参考序列模式集合中不仅包含第一类语法关系序列所属的语法关系类型下的参考序列模式,还包含第二类型语法关系序列所属的语法关系类型下的参考序列模式;并再次执行上述步骤s13;重复执行上述操作,直至能够从候选参考序列模式集合中选取出匹配序列模式。这种方式可避免一次性执行多次匹配的操作,减少能源损耗。
下面结合附图7来对上述过程进行简要阐述;请参见图7,图7示出了本申请一个示例性实施例提供的一种确定匹配序列模式的示意图;如图7所示,假设支持度阈值为60%,置信度阈值为60%,目标文本为“歌曲的作曲是小明”。
首先,确定目标文本的第一类语法关系序列(如语法关系类型为词性关系)为“/n/u /n /v /n”,并从与第一类语法关系序列模式属于同一语法关系类型的第一参考序列模式子集中确定的候选参考序列模式,包括:候选参考序列模式1“/n /f /p /u /n /v /n”(支持度为40%)、候选参考序列模式2“/n /f /u /p /n /w /v /n”(支持度为50%)、及候选参考序列模式3“/p /n /u /n /v /n”(支持度为30%)、候选参考序列模式4“/n /u /n /w /v /n”(支持度为70%);此时候选参考序列模式集合包含的候选参考序列模式为:候选参考序列模式1“/n /f /p /u /n /v /n”(支持度为40%)、候选参考序列模式2“/n /f /u /p /n/w /v /n”(支持度为50%)、及候选参考序列模式3“/p /n /u /n /v /n”(支持度为30%)、候选参考序列模式4“/n /u /n /w /v /n”(支持度为70%),候选参考序列模式集合的置信度为25%<60%,不能从候选参考序列模式集合中筛选出匹配序列模式。
其次,确定第二类语法关系序列(如语法关系类型为句法关系)为“HED ATT RADSBV VOB”,并从与第二类语法关系序列模式属于同一语法关系类型的第二参考序列模式子集中确定的候选参考序列模式,包括:候选参考序列模式5“HED ATT RAD SBV VOB ATT”(支持度为70%)、候选参考序列模式6“HED ATT RAD SBV VOB ATT RAD”(支持度为65%)、候选参考序列模式7“HED ATT RAD SBV VOB ATT RAD SBV”(支持度为80%)、候选参考序列模式8“HED ATT RAD SBV VOB ATT RAD SBV VOB”(支持度为70%);此时,候选参考序列模式集合中包括的候选参考序列模式为:候选参考序列模式1“/n /f /p /u /n /v /n”(支持度为40%)、候选参考序列模式2“/n /f /u /p /n /w /v /n”(支持度为50%)、及候选参考序列模式3“/p /n /u /n /v /n”(支持度为30%)、候选参考序列模式4“/n /u /n /w /v /n”(支持度为70%)、候选参考序列模式5“HED ATT RAD SBV VOB ATT”(支持度为70%)、候选参考序列模式6“HED ATT RAD SBV VOB ATT RAD”(支持度为65%)、候选参考序列模式7“HED ATT RADSBV VOB ATT RAD SBV”(支持度为80%)、候选参考序列模式8“HED ATT RAD SBV VOB ATTRAD SBV VOB”(支持度为70%)。
最后,计算候选参考序列模式集合的置信度为62.5%>60%,则将支持度最大的候选参考序列模式7“HED ATT RAD SBV VOB ATT RAD SBV”确定为匹配序列模式。需要说明的是,图7以词性关系和句法关系为例进行介绍,并不对本申请实施例产生限定,在此说明。
值得一提的是,除采用上述描述的依次对每类语法关系类型下的目标语法关系序列与参考序列模式子集进行匹配,选取出匹配序列模式以外。本申请实施例还支持,同时将待识别的目标文本的多种目标语法关系序列与各自对应的参考序列模式子集中的各个参考序列模式进行匹配,得到候选参考序列模式集合(包含属于不同语法关系类型下的候选参考序列模式),并从候选参考序列模式集合中选取目标语法关系序列相匹配的匹配序列模式。这能够匹配得到准确度较高的匹配序列模式,进而提高目标文本中人名识别的准确性。
下面结合附图8来对上述过程进行简要阐述;请参见图8,图8示出了本申请一个示例性实施例提供的一种确定匹配序列模式的示意图;如图8所示,假设支持度阈值为60%,置信度阈值为60%;语法关系类型包括三种,分别为词性关系、句法关系及语义依存关系,目标文本为“歌曲的作曲是小明”;其中,各语法关系类型下的候选参考序列模式为:
(1)目标文本的第一类语法关系序列(如语法关系类型为词性关系)为“/n /u /n/v /n”,并从与第一类语法关系序列模式属于同一语法关系类型的第一参考序列模式子集中确定的候选参考序列模式,包括:候选参考序列模式1“/n /f /p /u /n /v /n”(支持度为40%)、候选参考序列模式2“/n /f /u /p /n /w /v /n”(支持度为50%)、及候选参考序列模式3“/p /n /u /n /v /n”(支持度为30%)、候选参考序列模式4“/n /u /n /w /v /n”(支持度为70%)。
(2)确定第二类语法关系序列(如语法关系类型为句法关系)为“HED ATT RAD SBVVOB”,并从与第二类语法关系序列模式属于同一语法关系类型的第二参考序列模式子集中确定的候选参考序列模式,包括:候选参考序列模式5“HED ATT RAD SBV VOB ATT”(支持度为70%)、候选参考序列模式6“HED ATT RAD SBV VOB ATT RAD”(支持度为65%)、候选参考序列模式7“HED ATT RAD SBV VOB ATT RAD SBV”(支持度为80%)、候选参考序列模式8“HEDATT RAD SBV VOB ATT RAD SBV VOB”(支持度为70%)。
(3)确定第三类语法关系序列(如语法关系类型为语义依存关系)为“Root FEATmDEPD EXP LINK”,并从与第三类语法关系序列模式属于同一语法关系类型的第三参考序列模式子集中确定的候选参考序列模式,包括:候选参考序列模式9“Root FEAT mDEPD EXPLINK FEAT mDEPD”(支持度为70%)、候选参考序列模式10“HED ATT RAD SBV VOB ATT RADFEAT mDEPD EXP”(支持度为65%)。
基于(1)-(3)可知,在这种实现方式下,候选参考序列模式集合中包含的候选参考序列模式包括:候选参考序列模式1“/n /f /p /u /n /v /n”(支持度为40%)、候选参考序列模式2“/n /f /u /p /n /w /v /n”(支持度为50%)、及候选参考序列模式3“/p /n /u /n/v /n”(支持度为30%)、候选参考序列模式4“/n /u /n /w /v /n”(支持度为70%)、候选参考序列模式5“HED ATT RAD SBV VOB ATT”(支持度为70%)、候选参考序列模式6“HED ATTRAD SBV VOB ATT RAD”(支持度为65%)、候选参考序列模式7“HED ATT RAD SBV VOB ATTRAD SBV”(支持度为80%)、候选参考序列模式8“HED ATT RAD SBV VOB ATT RAD SBV VOB”(支持度为70%)、候选参考序列模式9“Root FEAT mDEPD EXP LINK FEAT mDEPD”(支持度为70%)、候选参考序列模式10“HED ATT RAD SBV VOB ATT RAD FEAT mDEPD EXP”(支持度为65%)。综上,候选参考序列模式集合的置信度为70%>60%,则将支持度最大的候选参考序列模式7“HED ATT RAD SBV VOB ATT RAD SBV”(支持度为80%)确定为匹配序列模式。
需要说明的是,图8以三种语法关系类型,以及各自对应的几种候选参考序列模式为例进行介绍,并不对本申请实施例产生限定,在此说明。
S204、获取目标语法关系序列中处于第m个参考语法关系标识后的目标语法关系标识,并将目标文本与目标语法关系标识对应的字符确定为人名字符。
基于步骤S203可得到与目标语法关系序列相匹配的匹配序列模式,该匹配序列模式包括N个参考标识,N个参考标识包括人名标识和M个参考语法关系标识;其中,M个参考语法关系标识是目标语法关系序列所包含的语法关系标识,人名标识排列在第m个参考语法关系标识之后。由于目标语法关系序列与匹配序列模式相匹配,则M个参考语法关系标识在目标语法关系序列中的排列顺序与M个参考语法关系标识在匹配序列模式中的排列顺序相同,又因为匹配序列模式中人名标识排列在第m个参考语法关系标识之后,则在目标语法关系序列中将第m个参考语法关系标识之后的目标语法关系标识确定为人名标识,相应的,将目标文本中与目标语法关系标识相对应的字符确定为人名字符。
举例来说,假设待识别的目标文本为“歌曲是动听的,歌曲的作曲是小明”;对该目标文本进行词性关系分析得到目标语法关系序列为“/n /v /a /w /n /u /n /v /n”,其中,目标文本中的第一个字符“歌曲”与目标语法关系序列中的第一个语法关系标识“/n”相对应、目标文本中的第二个字符“是”与目标语法关系序列中的第二个语法关系标识“/n”相对应、......、目标文本中的第九个字符“小明”与目标语法关系序列中的第九个语法关系标识“/n”相对应。假设与该目标语法关系序列相匹配的匹配序列模式为“/n /u /n /v *”,在该匹配序列模式中包含5个参考标识,其中,参考标识“*”为人名标识,既存在于目标语法关系序列又存在于匹配序列模式中的M个参考语法关系标识为“/n、/u、/n、/v”,其排列顺序为/n→/u→/n→/v。由于在匹配序列模式中,人名标识“*”排列在第4个参考语法关系标识(即“/v”)之后,则将目标语法关系标识中与匹配序列模式排列顺序相同的4个语法关系标识中的语法关系标识“/v”之后的语法关系标识确定为目标语法关系标识。进一步的,将目标文本中与目标语法关系标识相对应的字符“小明”确定为人名字符。
需要说明的是,上述描述的人名标识除用“*”来表示以外,还可以用其他符号如“#”等来标注,本申请实施例对此不作限定。
综上述,本申请实施例能够对待识别的目标文本进行语法关系分析,实现对目标文本中隐含的语法规则的挖掘,这些隐含的语法规则作为参考信息可帮助在目标文本中定位和抽取人名字符。在语法关系分析之后,还将语法关系分析得到的目标语法关系序列与参考序列模式集合中的各个参考序列模式进行匹配,选取出与目标语法关系序列相匹配的匹配序列模式,进而根据匹配序列模式识别出目标文本中的人名字符;由于参考序列模式集合是对包含人名字符的大量样本文本进行语法关系序列模式挖掘得到的,这种无监督的方式提高了参考序列模式的准确性,进而将目标语法关系序列与准确性较高的各个参考序列模式进行匹配,可更好地从目标语法关系序列中识别人名字符,提高人名识别的准确性。
另外,本申请实施例还支持对通过图2所示实施例识别到人名字符的目标文本进行人名字符标注(即将人名字符标注为人名标识),并对人名字符标注后的目标文本进行语法关系序列模式挖掘,得到目标序列模式;将目标序列模式作为一个参考序列模式添加至参考序列模式集合中,实现对参考序列模式集合的更新。或者,将识别到人名字符的目标文本可作为一个样本文本添加至样本文本集中,将目标文本以及样本文本集中原有的样本文本一同进行新一轮语法关系序列模式挖掘,到更新后的参考序列模式集合。这样能够自动化的迭代更新参考序列模式集合中的参考序列模式和参考序列模式的支持度,实现线上识别人名字符以及线上确定参考序列模式集合的全自动化流程。
请参见图9,图9示出了本申请一个示例性实施例提供的另一种文本处理方法的流程示意图;该文本处理方案可以由图1b所示系统的计算机设备来执行。如图9所示,该文本处理方案可包括步骤S901-步骤S903,其中:
S901、获取样本文本集。
样本文本集中包含多个具有人名字符标注的样本文本,例如,样本文本为“歌曲的作曲是小明”,在该样本文本中对人名字符“小明”进行人名字符标注,这能够帮助后续对样本文本进行语法关系分析时,在样本文本中快速定位人名字符的位置,并将人名字符标注对应的语法关系表示确定为人名标识。其中,对样本文本中的人名字符进行人名字符标注的方式可包括在人名字符与人名字符之前(或之后)的字符之间标注目标标识(如*、#等),当后续语法关系分析时识别到目标标识,就可以快速定位到人名字符;等等。
获取样本文本集的方式可包括:首先,获取第一人名字符集合,该第一人名字符集合中包含多个人名字符(即人名实体),这些人名实体可以是通过列举或爬取网页(如百度百科)得到的。其次,采用人名识别模型对第一人名字符集合进行预测处理,得到第二人名字符集合,第二人名字符集合中包含第一人名字符集合中的人名字符以外,还包括基于第一人名字符集合中的人名字符扩展的其他人名字符;其中,人名识别模型可以是指用于迭代扩展人名识别的网络模型等,通过人名识别模型实现自动化地爬取人名实体,扩充人名实体的数量。最后,获取多个样本文本,每个样本文本中包含至少一个属于第二人名字符集合的人名字符,这些样本文本组成样本文本集;其中,这些样本文本可以来自于互联网中的新闻资讯、百度词条、维基百科等等,也可以来自于数据库中历史存储的文本等,本申请实施例对此不做限定。
下面给出几种样本文本的示例,请参见表1:
表1
样本文本
歌曲的作曲是小明
歌曲的作词人居然是小花
除了集团的高管外,小高也发表观点
作为集团的CTO,小亮提出建议
如表1所示,样本文本1“歌曲的作曲是小明”中具有人名字符“小明”;样本文本2“歌曲的作曲人居然是小花”中具有人名字符“小花”;样本文本3“除了集团的高管外,小高也发表观点”中具有人名字符“小高”;样本文本4“作为集团的CTO,小亮提出建议”中具有人名字符“小亮”。
S902、对样本文本集中每个样本文本进行语法关系分析,得到训练语法关系序列集合。
步骤S902所示的语法关系分析的具体实施过程可参见图2所示实施例中步骤S202所示的相关描述;例如,对样本文本集中的样本文本进行语法关系分析之前,可以先对样本文本进行分词处理,得到分词处理之后的每个样本文本,以便于后续的语法关系分析;又如,采用不同的语法关系类型对样本文本集中的样本文本进行语法关系分析时,可得到不同语法关系类型的训练语法关系序列集合;等等。以表1所示的多个样本文本为例,下面给出表1所示多个样本文本进行分词处理后的结果,可参见表2,其中:
表2
待识别的目标文本 分词结果
歌曲的作曲是小明 歌曲/的/作曲/是/小明
歌曲的作词人居然是小花 歌曲/的/作词人/居然/是/小花
除了集团的高管外,小高也发表观点 除了/集团/的/高管/外/,/小高/也/发表/观点
作为集团的CTO,小亮提出建议 作为/集团/的/CTO/,/小亮/提出/建议
对较长的字段(即样本文本)进行分词处理,可将较长的字段划分为词或词语,有助于对较长字段更好地理解。
基于图2所示实施例中对语法关系分析的相关描述可知,采用不同的语法关系类型对样本文本集中的样本文本进行语法关系分析,可得到样本文本的不同的语法关系序列。语法关系类型可包括但不限于:词性关系、语义依存关系和句法关系,采用这三种语法关系类型对样本文本集中的每个样本文本进行语法关系分析,可得到三个训练语法关系序列子集,分别为词性关系序列子集、语义依存关系序列子集以及句法关系序列子集。其中,词性关系序列子集中包含每个样本文本对应的词性关系序列,语义依存关系序列子集中包含每个样本文本对应的语义依存序列,句法关系序列子集中包含每个样本对应的句法依存序列。另外,每个序列包含一个或多个训练语法关系标识,此处的训练语法关系标识与前述描述的目标文本对应的目标语法关系序列所包含的语法关系标识类似,在此不做赘述。
下面以表2所示的多个样本文本为例,给出三种语法关系类型下的样本文本的语法关系序列;其中:
(1)语法关系类型为词性关系;对各个样本文本进行词性标注的结果可参见表3:
表 3
待识别的目标文本 词性标注的结果
歌曲的作曲是小明 歌曲/n 的/u 作曲/n 是/v 小明/n
歌曲的作词人居然是小花 歌曲/n 的/u 作词人/n 居然/d 是/v 小花/n
除了集团的高管外,小高也发表观点 除了/p 集团/n 的/u 高管/n 外/f ,/w 小高/n 也/d 发表/v 观点/n
作为集团的CTO,小亮提出建议 作为/p 集团/n 的/u CTO/n ,/w 小亮/n 提出/v 建议/n
如表3所示,基于表2所展现的分词处理后的目标文本,对各个词进行词性标注,可得到目标文本中各个词的词性。
值得注意的是,人名字符在这些样本文本中的位置是已知的,因此,本申请实施例对样本文本进行词性标注时,在人名字符对应的词性位置之前(或之后)添加目标符号(如“*”)来标识该词性位置为人名字符的位置,该词性被称为人名标识。例如,表3所包含的样本文本进行人名字符标识之后,得到的词性关系序列的结果可参见表4:
表4
待识别的目标文本 词性关系序列
歌曲的作曲是小明 /n /u /n /v */n
歌曲的作词人居然是小花 /n /u /n /d /v */n
除了集团的高管外,小高也发表观点 /p /n /u /n /f /w */n /d /v /n
作为集团的CTO,小亮提出建议 /p /n /u /n /w */n /v /n
如表4所示,紧临符号“*”之后的训练语法关系标识(即“/n”)为人名标识;例如,词性关系序列“/n /u /n /v */n”中,位于“*”后的训练语法关系标识“/n”为人名标识。人名标识在该词性关系序列“/n /u /n /v */n”中的位置,与人名字符“小明”在该词性关系序列对应的样本文本“歌曲的作曲是小明”中的位置相对应。当计算机设备在词性关系序列中检测到“*/n”时,就可以确定“*/n”中的训练语法关系标识“/n”为人名标识。需要说明的是,本申请实施例支持省略“*/n”中的“/n”,也就是说,以“*”代替“*/n”,当计算机设备在词性关系序列中检测到“*”时,确定样本文本中与词性关系序列中“*”对应的字符为人名字符。在这种情况下,样本文本“歌曲的作曲是小明”的词性关系序列可由“/n /u /n /v */n”表示为“/n /u /n /v *”,其他样本文本的词性关系序列的表现形式类似,在此不一一进行说明。
(2)语法关系类型为句法类型;对各个样本文本进行句法类型分析的结果可参见表5:
表5
待识别的目标文本 句法依存序列
歌曲的作曲是小明 HED ATT RAD SBV VOB*
歌曲的作词人居然是小花 HED ATT RAD SBV ADV VOB*
除了集团的高管外,小高也发表观点 HED ADV ATT RAD ATT ADV WP SBV* ADV VOB
作为集团的CTO,小亮提出建议 HED ADV WP POB ATT RAD *SBV VOB
(3)语法关系类型为语义依存类型;对各个样本文本进行语义依存类型分析的结果可参见表6:
表6
待识别的目标文本 语义依存序列
歌曲的作曲是小明 Root FEAT mDEPD EXP LINK
歌曲的作词人居然是小花 Root FEAT mDEPD EXP mDEPD LINK
除了集团的高管外,小高也发表观点 Root mRELA FEAT mDEPD DATV mPUNC mDEPD AGT mDEPD CONT
作为集团的CTO,小亮提出建议 Root mRELA FEAT mDEPD DATV mPUNCAGT CONT
综上,通过对样本文本集中的每个样本文本均执行语法关系分析,可得到训练语法关系序列集合,又由于语法关系类型包括多种类型,所以训练语法关系序列集合包括多个语法关系序列子集,每一个语法关系序列子集中只包含属于同一语法关系类型下的样本文本的语法关系序列。这种对样本文本集中的样本文本进行多种语法关系类型的语法关系分析,可挖掘得到样本文本的更多隐含的语法规则,这些语法规则可能可以用于表征样本文本中各个字符之间的语义或结构关系,这有助于帮助定位样本文本中人名字符的位置,提高训练得到的参考序列模式的准确性,进而提高对目标文本中人名字符识别的准确性。
S903、根据训练语法关系序列集合对样本文本集进行序列模式挖掘得到参考序列模式集合。
值得注意的是,当采用不同的语法分析工具对样本文本集中的样本文本执行上述的语法关系分析,可能由于语法分析工具的差异性,造成同一样本文本集中的不同样本文本的同一语法关系类型表现为不同的形式。例如,词性关系类型下,词性为名词时,该名词可被标注为“/n”或“/ns”或“/nh”等等。基于此,本申请实施例还提供语法关系标准化功能,所谓语法关系标准化是指将各个样本文本对应的训练语法关系序列的格式进行统一;例如,将名词“/n”或“/ns”或“/nh”统一标注为“/n”。这能避免后续对训练语法关系序列进行序列模式挖掘时的格式差异问题,提高序列模式挖掘的速率。
正如前述所描述的,采用不同的语法关系类型对样本文本集中的样本文本进行语法关系分析,可得到不同的训练语法关系序列集合。基于此,步骤S903所描述的根据训练语法关系序列集合对样本文本集进行序列模式挖掘得到参考序列模式集合,是指根据每一种语法关系类型下的训练语法关系序列子集对样本文本集进行序列模式挖掘,得到多种语法关系类型下的参考序列模式子集,各个参考序列模式子集组成参考序列模式集合。其中,根据训练语法关系序列集合对样本文本集进行序列模式挖掘得到参考序列模式集合的具体实现方式可包括:根据训练语法关系序列集合中任一训练语法关系序列子集对样本文本集进行序列模式挖掘,得到该任一训练语法关系序列子集对应的参考序列模式子集,每一个参考序列模式子集中只包含属于同一语法关系类型下的参考序列模式;将每个训练语法关系序列子集对应的参考序列模式子集组成参考序列模式集合。例如:样本文本集中包含样本文本1、样本文本2、样本文本3、样本文本4,分别采用句法关系和词性关系对样本文本集中的每个样本文本进行句法关系分析,得到句法关系序列子集和词性关系序列子集;分别对句法关系序列子集和词性关系序列子集进行序列模式挖掘,得到句法关系序列子集对应的参考序列模式子集,以及词性关系序列子集对应的参考序列模式子集;句法关系序列子集对应的参考序列模式子集,以及词性关系序列子集对应的参考序列模式子集,组成参考序列模式集合。
具体实现中,可采用序列模式挖掘算法对任一训练语法关系序列子集进行频繁序列模式挖掘,得到该任一训练语法关系序列子集对应的参考序列模式子集。此处的序列模式挖掘算法可包括但不限于:PrefixSpan(Prefix-Projected Pattern Growth,前缀投影的模式挖掘)算法、Apriori(挖掘关联规则的频繁项集)算法、GSP(GeneralizedSequential Pattern mining algorithm)算法,等等。其中,PrefixSpan算法的原理如下:设置频率阈值(即频率最小支持度),并基于该频率阈值从样本文本集中的各个样本文本中挖掘出满足该频率阈值的各个参考序列模式;其中,频率阈值的设置方式可参见如下计算公式:
min_sup=a×n 公式1
此处的min_sup表示频率阈值(即频率最小支持度),n表示样本文本集中的样本文本的数量。a为频率最小支持率,a∈(0,1];a的具体取值可根据样本文本集的量级进行调整。例如,若样本文本集的量级较大(如包含1000个样本文本),则a的取值可以为1;若样本文本集的量级较小(如只包含10个样本文本),则a的取值可以为2/3。
基于以上描述的PrefixSpan算法的原理,采用PrefixSpan算法对训练语法关系序列子集进行频繁序列模式挖掘的具体操作步骤可参见如下:
(1)在任一训练语法关系序列子集中找出各个训练语法关系标识(其单位长度为1),并统计各个训练语法关系标识的频率;训练语法关系标识的频率用于反映在训练语法关系子集中包含该训练语法关系标识的训练语法关系序列的数量。
(2)将训练语法关系标识的频率大于频率阈值的训练语法关系标识作为前缀,并获取该前缀对应的投影数据集;其中,投影数据集中包含前缀在各个样本文本中所对应的后缀,一个后缀由一个样本文本中位于前缀后的训练语法关系标识所构成。
(3)对所有长度为i且大于频率阈值要求的前缀进行递归挖掘,i为大于1的整数:
①挖掘当前前缀的投影数据集,如果投影数据集为空集合,则返回递归。
②根据当前前缀的投影数据集中各后缀中的各训练语法关系标识的频率,将各后缀中大于频率阈值的训练语法关系标识分别与当前前缀合并,得到新前缀;若不存在大于频率阈值的训练语法关系标识,则返回递归。
③令i=i+1,前缀为合并后的各个新前缀,分别递归执行第(3)步;直至挖掘得到的投影数据集满足结束条件(如投影数据集为空)。
下面基于上述步骤,结合表4所示的样本文本集来,以语法关系序列为词性关系序列子集为例,具体介绍频繁序列模式挖掘的具体流程,其具体实现方式可包括步骤s21-s23:
s21,在词性关系序列子集中计算各个训练语法关系标识的第一频率,并根据各个训练语法关系标识的第一频率对词性关系序列子集进行更新;更新后的词性关系序列子集包括的每一个训练语法关系标识的第一频率均大于频率阈值。其中,训练语法关系标识的第一频率用于反映词性关系序列子集中包含该训练语法关系标识的词性关系序列的数量。换句话说,先统计词性关系序列子集中每一个训练语法关系标识所在的词性关系序列的数量;再根据训练语法关系标识所在的词性关系序列的数量大于频率阈值的训练语法关系标识,对词性关系序列子集进行更新,更新后的词性关系序列子集中只包含第一频率大于频率阈值的训练语法关系标识。
例如,承接上述表4的样本文本集对应的词性关系序列子集,对词性关系序列子集中的各个训练语法关系标识进行计算,可得到表7所示的各个训练语法关系标识的第一频率:
表7
训练语法关系标识 第一频率(出现的词性关系序列的数量)
/n 4
/u 4
/v 4
/d 2
/w 2
/p 2
/f 1
假设频率最小支持率a=0.4,则频率阈值min_sup=a×n=0.4×4=1.6,则在表4所示的4个样本文本中训练语法关系标识至少出现在2个词性关系序列中的训练语法关系标识的第一频率才大于频率阈值。例如,表7中第一频率大于频率阈值的训练语法关系标识包括:/n、/u、/v、/d、/w、/p。根据各个训练语法关系标识的第一频率对表7所示的各个训练语法关系标识进行过滤处理(即对词性关系序列子集进行更新),得到更新后的词性关系序列子集为表8:
表8
待识别的目标文本 词性关系序列
歌曲的作曲是小明 /n /u /n /v *
歌曲的作词人居然是小花 /n /u /n /d /v *
除了集团的高管外,小高也发表观点 /p /n /u /n /w * /d /v /n
作为集团的CTO,小亮提出建议 /p /n /u /n /w * /v /n
结合表7和表8所示可知,词性关系序列子集中第一频率小于频率阈值的训练语法关系标识为“/f”,那么将词性关系序列子集中词性关系序列“/p /n /u /n /w /f * /d /v/n”更新为“/p /n /u /n /w * /d /v /n”。
s22,基于更新后的词性关系序列模式子集进行序列模式挖掘,得到词性关系序列模式子集对应的参考序列模式子集,该参考序列模式子集中的参考序列模式均为词性关系序列。其中,对词性关系序列模式子集中的词性关系序列进行序列模式挖掘的具体操作步骤可参见步骤(1)-(2):
(1)将更新后的词性关系序列模式子集中的每一个训练语法关系标识作为一项前缀,并获取每个一项前缀的投影数据集。其中,投影数据集中包含前缀在各个样本文本中所对应的后缀,一个后缀由一个样本文本中位于前缀后的训练语法关系标识所构成。例如,承接表8所示的四个样本文本,可作为一项前缀的训练语法关系标识(即第一频率大于频率阈值的训练语法关系标识)分别为:/n、/u、/v、/d、/w、/p;针对一项前缀“/n”而言,其在词性关系序列1“/n /u /n /v *”中的后缀为“/u /n /v *”;其在词性关系序列2“/n /u /n /d /v*”中的后缀为“/u /n /d /v *”;其在词性关系序列3“/p /n /u /n /w * /d /v /n”中的后缀为“/u /n /w * /d /v /n”;其在词性关系序列4“/p /n /u /n /w * /v /n”中的后缀为“/u /n /w * /v /n”。因此,一项前缀“/n”的投影数据集可包括:“/u /n /v *”、“/u /n/d /v *”、“/u /n /w * /d /v /n”、“/u /n /w * /v /n”。又如,针对一项前缀“/v”而言,其在词性关系序列1“/n /u /n /v *”中的后缀为“*”;其在词性关系序列2“/n /u /n /d /v *”中的后缀为“/u /n /d /v ”;在词性关系序列3“/p /n /u /n /w * /d /v /n”中一项前缀“ /v ”之后的训练语法关系标识为“/n”,不包含人名标识“*”;在词性关系序列4“/p /n /u /n /w * /v /n”中一项前缀“ /v ”之后的训练语法关系标识为“/n”,不包含人名标识“*”。因此,一项前缀“/v”的投影数据集中可包括:“*”、“*”。
同理,基于表8所示的各个训练语法关系标识的第一频率,从表8所示的词性语法关系序列中获取一项前缀和投影数据集可参见表9所示:
表9
Figure 70233DEST_PATH_IMAGE001
(2)对各个一项前缀的投影数据集进行递归挖掘,得到多个参考序列模式,并根据多个参考序列模式得到词性关系序列模式集合对应的参考序列模式子集。
其中,递归挖掘的具体实现方式可包括步骤①-③:
①对各个一项前缀的投影数据集进行挖掘,得到至少一个二项前缀以及各个二项前缀对应的投影数据集。换句话说,统计投影数据集中各个训练语法关系标识的第二频率,并将第二频率大于频率阈值的每个训练语法关系标识分别与一项前缀合并,得到新的前缀(即二项前缀),并采用步骤(1)的方式获取二项前缀的投影数据集。其中,训练语法关系标识的第二频率用于反映投影数据集中包含该训练语法关系标识的后缀的数量。
例如,以表9中一项前缀“/n”为例,“/n”对应的投影数据集中包括的四个后缀中,各个训练语法关系标识的第二频率可参见表10:
表10
训练语法关系标识 第二频率(出现的词性关系序列的数量)
/u 4
/n 4
/v 4
* 4
/d 2
/w 2
基于表10可知,一项前缀“/n”的后缀中的每个训练语法关系标识的第二频率均大于频率阈值(如前述设定的1.6),则表10所示的每个训练语法关系标识均与一项前缀“/n”合并,得到的二项前缀包括:“/n /u”、“/n /n”、“/n /v”、“/n *”、“/n /d”、“/n /w”。采用步骤(1)的方式获取各个二项前缀的投影数据集。下面承接表10,给出一项前缀为“/n”时,各个二项前缀以及投影数据集,参见表11:
表11
Figure 721794DEST_PATH_IMAGE002
②判断各个二项前缀的投影数据集是否满足结束条件,若满足结束条件,则结束递归挖掘,并将各个二项前缀作为参考序列模式,否则继续挖掘。其中,结束条件包括:挖掘得到的投影数据集为空(即投影数据集中不包含训练语法关系标识),或者,挖掘得到的投影数据集中各个训练语法关系标识的频率均小于或等于频率阈值。换句话说,若各个二项前缀的投影数据集均满足结束条件,则结束递归挖掘,并将各个二项前缀均作为参考序列模式继续挖掘二项前缀的投影数据集;反之,若存在二项前缀的投影数据集不满足结束条件,则对不满足结束条件的二项前缀的投影数据集进行挖掘,得到至少一个三项前缀以及各个三项前缀的投影数据集。这里的挖掘方式可参见前述步骤①所示的实施过程的相关描述。若各个三项前缀的投影数据集均满足结束条件,则结束递归挖掘,并将各个三项前缀均作为参考序列模式;否则继续挖掘,直到挖掘得到的投影数据集满足结束条件。
再请参见表11,各个二项前缀的投影数据集不满足结束条件,则继续对各个二项前缀的投影数据集进行挖掘。承接表11的例子,以二项前缀“/n /u”为例,计算“/n /u”对应的投影数据集中各个训练语法关系标识的第三频率,参见表12:
表12
训练语法关系标识 第三频率(出现的词性关系序列的数量)
/n 4
/v 4
* 4
/d 2
/w 2
基于表12可知,二项前缀为“/n /u”的投影数据集中每个训练语法关系标识的第三频率均大于频率阈值(如前述设定的1.6),表示,则表12所示的每个训练语法关系标识均与二项前缀为“/n /u”合并,得到的三项前缀包括:“/n /u /n”、“/n /u /v”、“/n /u *”、“/n /u /d”、“/n /u /w”。采用上述步骤获取各个三项前缀的投影数据集。下面承接表12,给出二项前缀为“/n /u”时,各个三项前缀以及投影数据集,参见表13:
表13
Figure 235952DEST_PATH_IMAGE003
参见表13可知,不满足结束条件的三项前缀包括:“/n /u /n”、“/n /u /v”、“/n /u *”、“/n /u /w”;由于三项前缀“/n /u /d”的投影数据集中只包含后缀“/v *”,其训练语法关系标识“/v”和“*”的第三频率均小于频率阈值,则存在三项前缀“/n /u /d”的投影数据集满足结束条件。基于此发现,继续对不满足结束条件的三项前缀进行序列模式挖掘。下面给出三项前缀“/n /u /v”的投影数据集中各个训练语法关系标识的第四频率,参见表14:
表14
训练语法关系标识 第四频率(出现的词性关系序列的数量)
/v 4
* 4
/d 2
/w 2
基于表14可知,三项前缀为“/n /u /n”的投影数据集中每个训练语法关系标识的第二频率均大于频率阈值(如前述设定的0.4),则表14所示的每个训练语法关系标识均与三项前缀“/n /u /n”合并,得到的四项前缀包括:“/n /u /n /v”、“/n /u /n *”、“/n /u /n /d”、“/n /u /n /d /w”。采用上述方式获取各个四项前缀的投影数据集。下面承接表14,给出四项前缀“/n /u /n”时,各个四项前缀以及投影数据集,参见表15:
表15
Figure 365582DEST_PATH_IMAGE004
参见表15可知,不满足结束条件的四项前缀包括:“/n /u /n /v”、“/n /u /n *”、“/n /u /n /d /w”;由于四项前缀“/n /u /n /d”的投影数据集中只包含后缀“/v *”,其训练语法关系标识“/v”和“*”的第四频率均小于频率阈值,则四项前缀“/n /u /n /d”的投影数据集满足结束条件。基于此发现,继续对不满足结束条件的四项前缀进行序列模式挖掘。
值得一提的是,表15所示的几个不满足结束条件的四项前缀对应的后缀的数量较少,因此,下面给出表15中不满足结束条件的所有四项前缀的序列模式挖掘结果,各个五项前缀以及投影数据集可参见表16:
表16
Figure 914375DEST_PATH_IMAGE005
继续对表16中不满足结束条件的五项前缀的投影数据集进行挖掘,得到各个六项前缀和投影数据集,参见表17:
表17
Figure 736837DEST_PATH_IMAGE006
继续对表17中不满足结束条件的六项前缀“/n /u /n /w* /v”的投影数据集进行挖掘,得到各个六项前缀和投影数据集,参见表18:
表18
Figure 738291DEST_PATH_IMAGE007
如表18可知,七项前缀的投影数据集为空,则结束递归挖掘。
③在结束递归挖掘之后,将递归结束得到的前缀作为参考序列模式。
例如,以步骤(2)中的各次递归挖掘为例,由于挖掘得到的七项前缀“/n /u /n /w* /v /n”的投影数据集为空,即挖掘得到的投影数据集满足了结束条件;因此,可结束递归挖掘。在得到一项前缀后,可分别采用一项前缀构建参考序列模式;同理,在得到N项前缀之后,也可分别采用N项前缀构建参考序列模式,从而可构建得到多个参考序列模式:“/n”“/v”“/u”“/v”“/d”“/w”“/n /u”“/n /n”“/n /v”“/n *”“/n /d”“/n /u /n”“/n /u /v”…“/n /u /n /w* /v /n”。
由此可见,本申请实施例所提出的PrefixSpan算法适用了一种“滚雪球”的方法和思路;即每一轮挖掘之前先判定是否满足结束条件,来保证序列模式挖掘的准确性,然后通过多轮递归挖掘提高序列模式的查全率。
s23,对参考序列模式子集进行去重处理,以更新参考序列模式子集。
由于在对样本文本集中的各个样本文本进行频繁序列模式挖掘时,是以1个训练语法关系标识为挖掘单位并按照从前往后的顺序,依次判断各训练语法关系标识是否大于频率阈值的方式进行挖掘的。因此,采用序列模式挖掘算法对训练语法关系序列子集进行频繁序列模式挖掘,得到的多个参考序列模式中,通常会出现一些冗余的参考序列模式。例如,假设参考序列模式1={a1,a2,……,an},参考序列模式2={b1,b2,…,bk},n<k,若存在数字序列1≤j1≤j2≤…≤jn≤k,满足a1包含于bj1,a2包含于bj2……,an包含于bjk,表示参考序列模式1所包含的训练语法关系标识在参考序列模式2中均可以找到,则称参考序列模式1是参考序列模式2的子序列,称参考序列模式2是参考序列模式1的超序列。可以理解的是,对应挖掘得到的各个参考序列模式来说,超序列往往包含更多的参考信息,如超序列包含子序列未包含的上下文辅助标识;在这种情况下,子序列是冗余的参考序列模式;由于这些冗余的序列模式不仅占用内存空间,并且在后续人名识别的过程中会增加匹配工作量;因此,为了减小人名识别过程的匹配工作量,提高人名识别效率,本申请实施例可先对参考序列模式子集进行去重处理,得到更新后的参考序列模式子集,以过滤掉冗余的参考序列模式。其中,去重处理可以是指在参考序列模式子集中保留超序列作为参考序列模式,删除子序列。
其中,对参考序列模式子集进行去重处理,以更新参考序列模式子集的具体实现方式可包括:检测参考序列模式子集中是否存在满足包含关系的第一参考序列模式和第二参考序列模式。其次,若参考序列模式子集中存在满足包含关系的第一参考序列模式和第二参考序列模式,且包含关系指示第一参考序列模式包含第二参考序列模式,则在参考序列模式子集中删除第二参考序列模式;其中,第一参考序列模式包含第二参考序列模式是指:第二参考序列模式包括的多个参考语法关系标识均包含在第一参考序列模式中,且第二参考序列模式包括的多个参考语法关系标识在第二参考序列模式中的排列顺序,与在第一参考序列模式中的排列顺序相同;若参考序列模式子集中存在满足包含关系的第一参考序列模式和第二参考序列模式,且包含关系指示第二参考序列模式包含第一参考序列模式,则在参考序列模式子集中删除第一参考序列模式;其中,第二参考序列模式包含第一参考序列模式是指:第一参考序列模式包括的多个参考语法关系标识均包含在第二参考序列模式中,且第一参考序列模式包括的多个参考语法关系标识在第一参考序列模式中的排列顺序,与在第二参考序列模式中的排列顺序相同。通过上述过程,可删除参考序列模式子集中冗余的序列模式,提高挖掘效率,节省存储内存。
举例来说,在参考序列模式子集中存在满足包含关系的第一参考序列模式“/p /n/u /n /n /v”和第二参考序列模式“/p /n /u /n /n”,可知,第一参考序列模式包含第二参考序列模式,则在参考序列模式子集中保留第一参考序列模式,删除第二参考序列模式,以得到更新后的参考序列模式,更新后的参考序列模式中不包含第二参考序列模式。
另外,通过上述步骤任一语法关系序列子集对应的参考序列模式子集后,还可以计算该参考序列模式子集中的每个参考序列模式的支持度。正如前述描述的,任一参考序列模式的支持度用于反映该参考序列模式在样本文本集中出现的频率,换句话说,参考序列模式的支持度用于反映在任一训练语法关系序列子集中包含该参考序列模式的训练语法关系序列的数量。需要说明的是,此处的训练语法关系序列包含参考序列模式是指,训练语法关系序列中包含参考序列模式所包含的语法关系标识,且训练语法关系序列中还可以包含参考序列模式不包含的语法关系标识,且各个语法关系标识在训练关系序列中的排列顺序与各个语法关系标识在参考序列模式中的排列顺序相同。其中,计算参考序列模式的支持度的方式为:
Q=X/Y 公式2
其中,Q为参考序列模式的支持度,X为任一训练语法关系序列子集中包含参考序列模式的训练语法关系序列的数量,Y为任一训练语法关系序列子集中包括的训练语法关系序列的总数量。例如,任一训练语法关系序列子集中包含目标参考序列模式的训练语法关系序列的数量为2,任一训练语法关系序列子集中训练语法关系序列的总数量为5,则目标参考序列模式的支持度为40%。
举例来说,假设任一语法关系序列子集为词性关系序列子集。对样本文本集进行上述语法关系分析,得到词性关系序列子集如表19所示:
表19
Figure 671612DEST_PATH_IMAGE008
同理,对词性关系序列子集进行序列模式挖掘之后,得到词性关系序列子集对应的参考序列模式子集如表20所示:
表20
Figure 74912DEST_PATH_IMAGE009
结合表19和表20可知,词性关系序列子集的词性关系序列1包含参考序列模式1,其他词性关系序列不包含参考序列模式1,则参考序列模式1的支持度=1/4=25%;同理,词性关系序列子集的词性关系序列3和词性关系序列4包含参考序列模式2,其他词性关系序列不包含参考序列模式2,则参考序列模式2的支持度=2/4=50%。本申请实施例中,参考序列模式的支持度越大,表示参考序列模式所包含的语法规则的准确性越高,采用该参考序列模式识别出目标文本中的人名字符的正确率越高;这种采用支持度来对参考序列模式的准确性进行校验,提高了参考序列模式的准确性。
本申请实施例中,一方面可对具有人名字符标注的大量样本文本进行语法关系分析,能够得到样本文本中隐含的语法规则,这些隐含的语法规则可帮助在目标文本中定位和抽取人名字符。另一方面,还对语法关系分析得到的语法关系序列进行序列模式挖掘,得到参考序列模式集合;采用多轮迭代挖掘方式可确保召回率,提高参考序列模式的准确性,有助于后续用于识别目标文本时,有效识别出目标文本中的人名字符。
上述详细阐述了本申请实施例的文本处理方法,为了便于更好地实施本申请实施例的上述方案,相应地,下面提供了本申请实施例的装置。
图10示出了本申请一个示例性实施例提供的一种文本处理装置的结构示意图;该文本处理装置可以是运行于终端中的一个计算机程序(包括程序代码);该文本处理装置可以用于执行图2所示的方法实施例中的部分或全部步骤。请参见图10,该文本处理装置包括如下单元:
获取单元1001,用于获取待识别的目标文本,目标文本包括多个字符;
处理单元1002,用于对目标文本进行语法关系分析,得到目标文本对应的目标语法关系序列,目标语法关系序列包括多个按序排列的语法关系标识;
处理单元1002,还用于将目标语法关系序列与参考序列模式集合中的各个参考序列模式进行匹配,选取与目标语法关系序列相匹配的匹配序列模式;其中,匹配序列模式包括N个参考标识,N个参考标识包括人名标识和M个参考语法关系标识,N和M均为大于1的整数且M小于N;目标语法关系序列包括M个参考语法关系标识,且M个参考语法关系标识在目标语法关系序列中的排列顺序与M个参考语法关系标识在匹配序列模式中的排列顺序相同;以及,
处理单元1002,还用于获取目标语法关系序列中处于第m个参考语法关系标识后的目标语法关系标识,并将目标文本中与目标语法关系标识对应的字符确定为人名字符;其中,m大于等于1且小于等于M,在匹配序列模式中人名标识排列在第m个参考语法关系标识后。
在一种实现方式中,处理单元1002,还用于:
对目标文本进行人名字符标注,并对人名字符标注后的目标文本进行语法关系序列模式挖掘,得到目标序列模式;
将目标序列模式作为一个参考序列模式添加到参考序列模式集合中。
在一种实现方式中,参考序列模式集合包括的各个参考序列模式,按照每个参考序列模式所属的语法关系类型不同,被划分为词性参考序列模式子集、语义关系参考序列模式子集和句法关系参考序列模式子集;语法关系类型包括词性关系、句法关系以及语义依存关系;目标语法关系序列包括第一类语法关系序列;处理单元1002,具体用于:
确定第一类语法关系序列所属语法关系类型,并从参考序列模式集合中获取与述第一类语法关系序列所属语法关系类型对应的第一参考序列模式子集;
将第一参考序列模式子集中与第一类语法关系序列相匹配的参考序列模式作为候选参考序列模式,并将候选参考序列模式添加至候选参考序列模式集合中;
从候选参考序列模式集合中选取匹配序列模式。
在一种实现方式中,参考序列模式集合中任一参考序列模式对应一个支持度,支持度用于反映任一参考序列模式在样本文本集中出现的频率;处理单元1002,具体用于:
获取候选参考序列模式集合中每个候选参考序列模式对应的支持度;
计算候选参考序列模式集合中支持度大于支持度阈值的候选参考序列模式的第一数量;以及,计算候选参考序列模式集合包括的候选参考序列模式的总数量;
将第一数量与总数量进行相除运算得到候选参考序列模式集合的置信度;
若候选参考序列模式集合的置信度大于置信度阈值,则将候选参考序列模式集合中支持度最高的候选参考序列模式确定为匹配序列模式。
在一种实现方式中,目标语法关系序列还包括第二类语法关系序列,处理单元1002,还用于:
若候选参考序列模式集合的置信度小于或等于置信度阈值,则确定第二类语法关系序列所属语法关系类型,并从参考序列模式集合中获取与第二类语法关系序列所属语法关系类型对应的第二参考序列模式子集;
将第二参考序列模式子集中与第二类语法关系序列相匹配的参考序列模式作为候选参考序列模式添加到候选参考序列模式集合中,并执行获取候选参考序列模式集合中每个候选参考序列模式对应的支持度的步骤。
根据本申请的一个实施例,图10所示的文本处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,该文本处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图10中所示的文本处理装置,以及来实现本申请实施例的文本处理方法。计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
本申请实施例中,当存在人名识别需求时,将待识别的目标文本的目标语法关系序列与预先得到的参考序列模式集合中的各个参考序列模式进行匹配,得到目标语法关系序列相匹配的匹配序列模式,再基于匹配序列模式从目标文本中识别出人名字符。上述过程中,通过对目标文本进行语法关系分析,可挖掘得到目标文本隐含的语法规则,这些隐含的语法规则可帮助在目标文本中定位和抽取人名字符;并且,由于参考序列模式集合是对包含人名字符的大量样本文本进行语法关系序列模式挖掘得到的,这种无监督的方式提高了参考序列模式的准确性,进而将目标语法关系序列与准确性较高的各个参考序列模式进行匹配,可更好地从目标语法关系序列中识别人名字符,提高人名识别的准确性。
图11示出了本申请一个示例性实施例提供的另一种文本处理装置的结构示意图;该文本处理装置可以是运行于终端中的一个计算机程序(包括程序代码);该文本处理装置可以用于执行图9所示的方法实施例中的部分或全部步骤。请参见图11,该文本处理装置包括如下单元:
获取单元1101用于获取样本文本集,样本文本集中包含多个具有人名字符标注的样本文本;
处理单元1102,用于对样本文本集中每个样本文本进行语法关系分析,得到训练语法关系序列集合,训练语法关系序列集合中包括每个样本文本对应的训练语法关系序列;以及,根据训练语法关系序列集合对样本文本集进行序列模式挖掘,得到参考序列模式集合。
在一种实现方式中,训练语法关系序列集合包括三个训练语法关系序列子集,分别为词性关系序列子集、语义依存关系序列子集以及句法关系序列子集;在词性关系序列子集中每个样本文本对应的训练语法关系序列是指词性关系序列,语义依存关系序列子集中每个样本文本对应的训练语法关系序列是指语义依存序列,句法关系序列子集中每个样本文本对应的训练关系序列是指句法依存序列;处理单元1102,具体用于:
根据训练语法关系序列集合中任一训练语法关系序列子集对样本文本集进行序列模式挖掘,得到任一训练语法关系序列子集对应的参考序列模式子集;
将每个训练语法关系序列子集对应的参考序列模式子集组成参考序列模式集合。
在一种实现方式中,处理单元1102,具体用于:
根据任一训练语法关系序列子集中各个训练语法关系标识的第一频率,对任一训练语法关系序列子集进行更新;更新后的任一训练语法关系序列子集包括的每个训练语法关系标识的第一频率均大于频域阈值;任一训练语法关系标识的第一频率用于反映任一训练语法关系序列子集中包含任一训练语法关系标识的训练语法关系序列的数量;
基于更新后的任一训练语法关系序列子集进行序列模式挖掘,得到任一训练语法关系序列对应的参考序列模式子集。
在一种实现方式中,处理单元1102,还用于:
对参考序列模式子集进行去重处理,以更新参考序列模式子集;
其中,处理单元1102,具体用于:
检测参考序列模式子集中是否存在满足包含关系的第一参考序列模式和第二参考序列模式;
若参考序列模式子集中存在满足包含关系的第一参考序列模式和第二参考序列模式,且包含关系指示第一参考序列模式包含第二参考序列模式,则在参考序列模式子集中删除第二参考序列模式;
第一参考序列模式包含第二参考序列模式是指:第二参考序列模式包括的多个参考语法关系标识均包含在第一参考序列模式中,且第二参考序列模式包括的多个参考语法关系标识在第二参考序列模式中的排列顺序,与在第一参考序列模式中的排列顺序相同;
若参考序列模式子集中存在满足包含关系的第一参考序列模式和第二参考序列模式,且包含关系指示第二参考序列模式包含第一参考序列模式,则在参考序列模式子集中删除第一参考序列模式;
第二参考序列模式包含第一参考序列模式是指:第一参考序列模式包括的多个参考语法关系标识均包含在第二参考序列模式中,且第一参考序列模式包括的多个参考语法关系标识在第一参考序列模式中的排列顺序,与在第二参考序列模式中的排列顺序相同。
在一种实现方式中,处理单元1102,具体用于:
将更新后的任一训练语法关系序列子集包括的多个训练语法关系标识分别作为一项前缀;
获取各个一项前缀的投影数据集,投影数据集中包含前缀在各个样本文本中所对应的后缀,一个后缀由一个样本文本中位于前缀后的训练语法关系标识所构成;
对各个一项前缀的投影数据集进行递归挖掘,得到多个参考序列模式,并根据多个参考序列模式确定任一训练语法关系序列对应的参考序列模式子集。
在一种实现方式中,处理单元1102,具体用于:
对各个一项前缀的投影数据集进行挖掘,得到至少一个二项前缀以及各个二项前缀对应的投影数据集;
若各个二项前缀的投影数据集均满足结束条件,则结束递归挖掘,并将各个二项前缀均作为参考序列模式;否则,则对不满足结束条件的二项前缀的投影数据集进行挖掘,得到至少一个三项前缀以及各个三项前缀的投影数据集;
若各个三项前缀的投影数据集均满足结束条件,则结束递归挖掘,并将各个三项前缀均作为参考序列模式;否则继续挖掘,直至挖掘得到的投影数据集满足结束条件;结束条件包括:挖掘得到的投影数据集为空,或挖掘得到的投影数据集中各训练语法关系标识的频率小于或等于频率阈值。
在一种实现方式中,处理单元1102,具体用于:
从一项前缀的投影数据集中选取第二频率大于频率阈值的至少一个训练语法关系标识;第二频率用于反映投影数据集中包含训练语法关系标识的后缀的数量;
将一项前缀与各训练语法关系标识合并,得到至少一个二项前缀,并获取各个二项前缀的投影数据集。
根据本申请的一个实施例,图11所示的文本处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,该文本处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图9所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图11中所示的文本处理装置,以及来实现本申请实施例的文本处理方法。计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
本申请实施例中,预先对样本文本集进行语法关系分析和序列模式挖掘,得到包含多个参考序列模式的参考序列模式集合。由于参考序列模式集合是对包含人名字符的大量样本文本进行语法关系序列模式挖掘得到的,这种无监督的方式提高了参考序列模式的准确性,有助于后续用于识别目标文本时,有效识别出目标文本中的人名字符。
图12示出了本申请一个示例性实施例提供的一种文本处理设备的结构示意图。请参见图12,该文本处理设备,包括处理器1201、通信接口1202以及计算机可读存储介质1203。其中,处理器1201、通信接口1202以及计算机可读存储介质1203可通过总线或者其它方式连接。其中,通信接口1202用于接收和发送数据。计算机可读存储介质1203可以存储在文本处理设备的存储器中,计算机可读存储介质1203用于存储计算机程序,计算机程序包括程序指令,处理器1201用于执行计算机可读存储介质1203存储的程序指令。处理器1201(或称CPU(Central Processing Unit,中央处理器))是文本处理设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。
本申请实施例还提供了一种计算机可读存储介质(Memory),计算机可读存储介质是文本处理设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括文本处理设备中的内置存储介质,当然也可以包括文本处理设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了文本处理设备的处理系统。并且,在该存储空间中还存放了适于被处理器1201加载并执行的一条或多条的指令,这些指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器的计算机可读存储介质。
在一个实施例中,该文本处理设备可以是前述实施例提到的计算机设备;该计算机可读存储介质中存储有一条或多条指令;由处理器1201加载并执行计算机可读存储介质中存放的一条或多条指令,以实现上述文本处理方法实施例中的相应步骤;具体实现中,计算机可读存储介质中的一条或多条指令由处理器1201加载并执行如下步骤:
获取待识别的目标文本,目标文本包括多个字符;
对目标文本进行语法关系分析,得到目标文本对应的目标语法关系序列,目标语法关系序列包括多个按序排列的语法关系标识;
将目标语法关系序列与参考序列模式集合中的各个参考序列模式进行匹配,选取与目标语法关系序列相匹配的匹配序列模式;其中,匹配序列模式包括N个参考标识,N个参考标识包括人名标识和M个参考语法关系标识,N和M均为大于1的整数且M小于N;目标语法关系序列包括M个参考语法关系标识,且M个参考语法关系标识在目标语法关系序列中的排列顺序与M个参考语法关系标识在匹配序列模式中的排列顺序相同;以及,
获取目标语法关系序列中处于第m个参考语法关系标识后的目标语法关系标识,并将目标文本中与目标语法关系标识对应的字符确定为人名字符;其中,m大于等于1且小于等于M,在匹配序列模式中人名标识排列在第m个参考语法关系标识后。
在一种实现方式中,计算机可读存储介质中的一条或多条指令由处理器1201加载并执行还如下步骤:
对目标文本进行人名字符标注,并对人名字符标注后的目标文本进行语法关系序列模式挖掘,得到目标序列模式;
将目标序列模式作为一个参考序列模式添加到参考序列模式集合中。
在一种实现方式中,参考序列模式集合包括的各个参考序列模式,按照每个参考序列模式所属的语法关系类型不同,被划分为词性参考序列模式子集、语义关系参考序列模式子集和句法关系参考序列模式子集;语法关系类型包括词性关系、句法关系以及语义依存关系;目标语法关系序列包括第一类语法关系序列;计算机可读存储介质中的一条或多条指令由处理器1201加载并在执行将目标语法关系序列与参考序列模式集合中的各个参考序列模式进行匹配,选取与目标语法关系序列相匹配的匹配序列模式时,具体执行如下步骤:
确定第一类语法关系序列所属语法关系类型,并从参考序列模式集合中获取与述第一类语法关系序列所属语法关系类型对应的第一参考序列模式子集;
将第一参考序列模式子集中与第一类语法关系序列相匹配的参考序列模式作为候选参考序列模式,并将候选参考序列模式添加至候选参考序列模式集合中;
从候选参考序列模式集合中选取匹配序列模式。
在一种实现方式中,参考序列模式集合中任一参考序列模式对应一个支持度,支持度用于反映任一参考序列模式在样本文本集中出现的频率;计算机可读存储介质中的一条或多条指令由处理器1201加载并在执行从候选参考序列模式集合中选取匹配序列模式时,具体执行如下步骤:
获取候选参考序列模式集合中每个候选参考序列模式对应的支持度;
计算候选参考序列模式集合中支持度大于支持度阈值的候选参考序列模式的第一数量;以及,计算候选参考序列模式集合包括的候选参考序列模式的总数量;
将第一数量与总数量进行相除运算得到候选参考序列模式集合的置信度;
若候选参考序列模式集合的置信度大于置信度阈值,则将候选参考序列模式集合中支持度最高的候选参考序列模式确定为匹配序列模式。
在一种实现方式中,目标语法关系序列还包括第二类语法关系序列,计算机可读存储介质中的一条或多条指令由处理器1201加载并执行还如下步骤:
若候选参考序列模式集合的置信度小于或等于置信度阈值,则确定第二类语法关系序列所属语法关系类型,并从参考序列模式集合中获取与第二类语法关系序列所属语法关系类型对应的第二参考序列模式子集;
将第二参考序列模式子集中与第二类语法关系序列相匹配的参考序列模式作为候选参考序列模式添加到候选参考序列模式集合中,并执行获取候选参考序列模式集合中每个候选参考序列模式对应的支持度的步骤。
在另一个实施例中,该文本处理设备可以是前述实施例提到的计算机设备;该计算机可读存储介质中存储有一条或多条指令;由处理器1201加载并执行计算机可读存储介质中存放的一条或多条指令,以实现上述文本处理方法实施例中的相应步骤;具体实现中,计算机可读存储介质中的一条或多条指令由处理器1201加载并执行如下步骤:
获取样本文本集,样本文本集中包含多个具有人名字符标注的样本文本;
对样本文本集中每个样本文本进行语法关系分析,得到训练语法关系序列集合,训练语法关系序列集合中包括每个样本文本对应的训练语法关系序列;
根据训练语法关系序列集合对样本文本集进行序列模式挖掘,得到参考序列模式集合。
在一种实现方式中,训练语法关系序列集合包括三个训练语法关系序列子集,分别为词性关系序列子集、语义依存关系序列子集以及句法关系序列子集;在词性关系序列子集中每个样本文本对应的训练语法关系序列是指词性关系序列,语义依存关系序列子集中每个样本文本对应的训练语法关系序列是指语义依存序列,句法关系序列子集中每个样本文本对应的训练关系序列是指句法依存序列;计算机可读存储介质中的一条或多条指令由处理器1201加载并在执行根据训练语法关系序列集合对样本文本集进行序列模式挖掘,得到参考序列模式集合时,具体执行如下步骤:
根据训练语法关系序列集合中任一训练语法关系序列子集对样本文本集进行序列模式挖掘,得到任一训练语法关系序列子集对应的参考序列模式子集;
将每个训练语法关系序列子集对应的参考序列模式子集组成参考序列模式集合。
在一种实现方式中,计算机可读存储介质中的一条或多条指令由处理器1201加载并在执行根据任一训练语法关系序列子集对样本文本集进行序列模式挖掘,得到任一训练语法关系序列子集对应的参考序列模式子集时,具体执行如下步骤:
根据任一训练语法关系序列子集中各个训练语法关系标识的第一频率,对任一训练语法关系序列子集进行更新;更新后的任一训练语法关系序列子集包括的每个训练语法关系标识的第一频率均大于频域阈值;任一训练语法关系标识的第一频率用于反映任一训练语法关系序列子集中包含任一训练语法关系标识的训练语法关系序列的数量;
基于更新后的任一训练语法关系序列子集进行序列模式挖掘,得到任一训练语法关系序列对应的参考序列模式子集。
在一种实现方式中,计算机可读存储介质中的一条或多条指令由处理器1201加载并还执行如下步骤:
对参考序列模式子集进行去重处理,以更新参考序列模式子集;
其中,计算机可读存储介质中的一条或多条指令由处理器1201加载并在执行对参考序列模式子集进行去重处理时,具体执行如下步骤:
检测参考序列模式子集中是否存在满足包含关系的第一参考序列模式和第二参考序列模式;
若参考序列模式子集中存在满足包含关系的第一参考序列模式和第二参考序列模式,且包含关系指示第一参考序列模式包含第二参考序列模式,则在参考序列模式子集中删除第二参考序列模式;
第一参考序列模式包含第二参考序列模式是指:第二参考序列模式包括的多个参考语法关系标识均包含在第一参考序列模式中,且第二参考序列模式包括的多个参考语法关系标识在第二参考序列模式中的排列顺序,与在第一参考序列模式中的排列顺序相同;
若参考序列模式子集中存在满足包含关系的第一参考序列模式和第二参考序列模式,且包含关系指示第二参考序列模式包含第一参考序列模式,则在参考序列模式子集中删除第一参考序列模式;
第二参考序列模式包含第一参考序列模式是指:第一参考序列模式包括的多个参考语法关系标识均包含在第二参考序列模式中,且第一参考序列模式包括的多个参考语法关系标识在第一参考序列模式中的排列顺序,与在第二参考序列模式中的排列顺序相同。
在一种实现方式中,计算机可读存储介质中的一条或多条指令由处理器1201加载并在执行基于更新后的任一训练语法关系序列子集进行序列模式挖掘,得到任一训练语法关系序列对应的参考序列模式子集时,具体执行如下步骤:
将更新后的任一训练语法关系序列子集包括的多个训练语法关系标识分别作为一项前缀;
获取各个一项前缀的投影数据集,投影数据集中包含前缀在各个样本文本中所对应的后缀,一个后缀由一个样本文本中位于前缀后的训练语法关系标识所构成;
对各个一项前缀的投影数据集进行递归挖掘,得到多个参考序列模式,并根据多个参考序列模式确定任一训练语法关系序列对应的参考序列模式子集。
在一种实现方式中,计算机可读存储介质中的一条或多条指令由处理器1201加载并在执行对各个一项前缀的投影数据集进行递归挖掘,得到多个参考序列模式时,具体执行如下步骤:
对各个一项前缀的投影数据集进行挖掘,得到至少一个二项前缀以及各个二项前缀对应的投影数据集;
若各个二项前缀的投影数据集均满足结束条件,则结束递归挖掘,并将各个二项前缀均作为参考序列模式;否则,则对不满足结束条件的二项前缀的投影数据集进行挖掘,得到至少一个三项前缀以及各个三项前缀的投影数据集;
若各个三项前缀的投影数据集均满足结束条件,则结束递归挖掘,并将各个三项前缀均作为参考序列模式;否则继续挖掘,直至挖掘得到的投影数据集满足结束条件;结束条件包括:挖掘得到的投影数据集为空,或挖掘得到的投影数据集中各训练语法关系标识的频率小于或等于频率阈值。
在一种实现方式中,计算机可读存储介质中的一条或多条指令由处理器1201加载并在执行对一项前缀的投影数据集进行挖掘,得到至少一个二项前缀以及各个二项前缀的投影数据集时,具体执行如下步骤:
从一项前缀的投影数据集中选取第二频率大于频率阈值的至少一个训练语法关系标识;第二频率用于反映投影数据集中包含训练语法关系标识的后缀的数量;
将一项前缀与各训练语法关系标识合并,得到至少一个二项前缀,并获取各个二项前缀的投影数据集。
本申请实施例中,预先对样本文本集进行语法关系分析和序列模式挖掘,得到包含多个参考序列模式的参考序列模式集合。由于参考序列模式集合是对包含人名字符的大量样本文本进行语法关系序列模式挖掘得到的,这种无监督的方式提高了参考序列模式的准确性,有助于后续用于识别目标文本时,有效识别出目标文本中的人名字符。当存在人名识别需求时,将待识别的目标文本的目标语法关系序列与预先得到的参考序列模式集合中的各个参考序列模式进行匹配,得到目标语法关系序列相匹配的匹配序列模式,再基于匹配序列模式从目标文本中识别出人名字符。上述过程中,通过对目标文本进行语法关系分析,可挖掘得到目标文本隐含的语法规则,这些隐含的语法规则可帮助在目标文本中定位和抽取人名字符;并且,由于参考序列模式集合是对包含人名字符的大量样本文本进行语法关系序列模式挖掘得到的,这种无监督的方式提高了参考序列模式的准确性,进而将目标语法关系序列与准确性较高的各个参考序列模式进行匹配,可更好地从目标语法关系序列中识别人名字符,提高人名识别的准确性。
本申请实施例还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。文本处理设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该文本处理设备执行上述文本处理方法。
本领域普通技术人员可以意识到,结合本申请中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用,使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程设备。计算机指令可以存储在计算机可读存储介质中,或者通过计算机可读存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如,同轴电缆、光纤、数字用户线(DSL))或无线(例如,红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(Solid State Disk,SSD))等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (15)

1.一种文本处理方法,其特征在于,包括:
获取待识别的目标文本,所述目标文本包括多个字符;
对所述目标文本进行语法关系分析,得到所述目标文本对应的目标语法关系序列,所述目标语法关系序列包括多个按序排列的语法关系标识;
将所述目标语法关系序列与参考序列模式集合中的各个参考序列模式进行匹配,选取与所述目标语法关系序列相匹配的匹配序列模式;其中,所述匹配序列模式包括N个参考标识,所述N个参考标识包括人名标识和M个参考语法关系标识,N和M均为大于1的整数且M小于N;所述目标语法关系序列包括所述M个参考语法关系标识,且所述M个参考语法关系标识在所述目标语法关系序列中的排列顺序与所述M个参考语法关系标识在所述匹配序列模式中的排列顺序相同;其中,所述参考序列模式集合是基于样本文本集进行序列模式挖掘得到的;
获取所述目标语法关系序列中处于第m个参考语法关系标识后的目标语法关系标识,并将所述目标文本中与所述目标语法关系标识对应的字符确定为人名字符;其中,m大于等于1且小于等于M,在所述匹配序列模式中所述人名标识排列在所述第m个参考语法关系标识后。
2.如权利要求1所述的方法,其特征在于,所述将所述目标文本中与所述目标语法关系标识对应的字符确定为人名字符之后,所述方法还包括:
对所述目标文本进行人名字符标注,并对人名字符标注后的目标文本进行语法关系序列模式挖掘,得到目标序列模式;
将所述目标序列模式作为一个参考序列模式添加到所述参考序列模式集合中。
3.如权利要求1所述的方法,其特征在于,所述参考序列模式集合包括的各个参考序列模式,按照每个参考序列模式所属的语法关系类型不同,被划分为词性参考序列模式子集、语义关系参考序列模式子集和句法关系参考序列模式子集;所述语法关系类型包括词性关系、句法关系以及语义依存关系;所述目标语法关系序列包括第一类语法关系序列,所述将所述目标语法关系序列与参考序列模式集合中的各个参考序列模式进行匹配,选取与所述目标语法关系序列相匹配的匹配序列模式,包括:
确定所述第一类语法关系序列所属语法关系类型,并从所述参考序列模式集合中获取与所述第一类语法关系序列所属语法关系类型对应的第一参考序列模式子集;
将所述第一参考序列模式子集中与所述第一类语法关系序列相匹配的参考序列模式作为候选参考序列模式,并将所述候选参考序列模式添加至候选参考序列模式集合中;
从所述候选参考序列模式集合中选取所述匹配序列模式。
4.如权利要求3所述的方法,其特征在于,所述参考序列模式集合中任一参考序列模式对应一个支持度,所述支持度用于反映所述任一参考序列模式在所述样本文本集中出现的频率;所述从所述候选参考序列模式集合中选取所述匹配序列模式,包括:
获取所述候选参考序列模式集合中每个候选参考序列模式对应的支持度;
计算所述候选参考序列模式集合中支持度大于支持度阈值的候选参考序列模式的第一数量;以及,计算所述候选参考序列模式集合包括的候选参考序列模式的总数量;
将所述第一数量与所述总数量进行相除运算得到所述候选参考序列模式集合的置信度;
若所述候选参考序列模式集合的置信度大于置信度阈值,则将所述候选参考序列模式集合中支持度最高的候选参考序列模式确定为所述匹配序列模式。
5.如权利要求4所述的方法,其特征在于,所述目标语法关系序列还包括第二类语法关系序列,所述方法还包括:
若所述候选参考序列模式集合的置信度小于或等于所述置信度阈值,则确定所述第二类语法关系序列所属语法关系类型,并从所述参考序列模式集合中获取与所述第二类语法关系序列所属语法关系类型对应的第二参考序列模式子集;
将所述第二参考序列模式子集中与所述第二类语法关系序列相匹配的参考序列模式,作为候选参考序列模式添加到所述候选参考序列模式集合中,并执行所述获取所述候选参考序列模式集合中每个候选参考序列模式对应的支持度的步骤。
6.一种文本处理方法,其特征在于,包括:
获取样本文本集,所述样本文本集中包含多个具有人名字符标注的样本文本;
对所述样本文本集中每个样本文本进行语法关系分析,得到训练语法关系序列集合,所述训练语法关系序列集合中包括每个样本文本对应的训练语法关系序列;
根据所述训练语法关系序列集合对所述样本文本集进行序列模式挖掘,得到参考序列模式集合,所述参考序列模式集合用于与待识别的目标文本对应的目标语法关系序列进行匹配,选取与所述目标语法关系序列相匹配的匹配序列模式,以获取所述目标语法关系序列中处于第m个参考语法关系标识后的目标语法关系标识,并将所述目标文本中与所述目标语法关系标识对应的字符确定为人名字符;其中,所述匹配序列模式包括N个参考标识,所述N个参考标识包括人名标识和M个参考语法关系标识,N和M均为大于1的整数且M小于N,m大于等于1且小于等于M,在所述匹配序列模式中所述人名标识排列在所述第m个参考语法关系标识后。
7.如权利要求6所述的方法,其特征在于,所述训练语法关系序列集合包括三个训练语法关系序列子集,分别为词性关系序列子集、语义依存关系序列子集以及句法关系序列子集;在所述词性关系序列子集中每个样本文本对应的训练语法关系序列是指词性关系序列,所述语义依存关系序列子集中每个样本文本对应的训练语法关系序列是指语义依存序列,所述句法关系序列子集中每个样本文本对应的训练关系序列是指句法关系序列;所述根据所述训练语法关系序列集合对所述样本文本集进行序列模式挖掘,得到参考序列模式集合,包括:
根据所述训练语法关系序列集合中任一训练语法关系序列子集对所述样本文本集进行序列模式挖掘,得到所述任一训练语法关系序列子集对应的参考序列模式子集;
将每个训练语法关系序列子集对应的参考序列模式子集组成所述参考序列模式集合。
8.如权利要求7所述的方法,其特征在于,所述根据任一训练语法关系序列子集对所述样本文本集进行序列模式挖掘,得到所述任一训练语法关系序列子集对应的参考序列模式子集,包括:
根据所述任一训练语法关系序列子集中各个训练语法关系标识的第一频率,对所述任一训练语法关系序列子集进行更新;更新后的任一训练语法关系序列子集包括的每个训练语法关系标识的第一频率均大于频域阈值;任一训练语法关系标识的第一频率用于反映所述任一训练语法关系序列子集中包含所述任一训练语法关系标识的训练语法关系序列的数量;
基于所述更新后的任一训练语法关系序列子集进行序列模式挖掘,得到所述任一训练语法关系序列对应的参考序列模式子集。
9.如权利要求8所述的方法,其特征在于,所述得到所述任一训练语法关系序列对应的参考序列模式子集之后,所述方法还包括:
对所述参考序列模式子集进行去重处理,以更新所述参考序列模式子集;
其中,所述对所述参考序列模式子集进行去重处理,包括:
检测所述参考序列模式子集中是否存在满足包含关系的第一参考序列模式和第二参考序列模式;
若所述参考序列模式子集中存在满足包含关系的所述第一参考序列模式和所述第二参考序列模式,且所述包含关系指示所述第一参考序列模式包含所述第二参考序列模式,则在所述参考序列模式子集中删除所述第二参考序列模式;
所述第一参考序列模式包含所述第二参考序列模式是指:所述第二参考序列模式包括的多个参考语法关系标识均包含在所述第一参考序列模式中,且所述第二参考序列模式包括的多个参考语法关系标识在所述第二参考序列模式中的排列顺序,与在所述第一参考序列模式中的排列顺序相同;
若所述参考序列模式子集中存在满足包含关系的所述第一参考序列模式和所述第二参考序列模式,且所述包含关系指示所述第二参考序列模式包含所述第一参考序列模式,则在所述参考序列模式子集中删除所述第一参考序列模式;
所述第二参考序列模式包含所述第一参考序列模式是指:所述第一参考序列模式包括的多个参考语法关系标识均包含在所述第二参考序列模式中,且所述第一参考序列模式包括的多个参考语法关系标识在所述第一参考序列模式中的排列顺序,与在所述第二参考序列模式中的排列顺序相同。
10.如权利要求8所述的方法,其特征在于,所述基于所述更新后的任一训练语法关系序列子集进行序列模式挖掘,得到所述任一训练语法关系序列对应的参考序列模式子集,包括:
将所述更新后的任一训练语法关系序列子集包括的多个训练语法关系标识分别作为一项前缀;
获取各个所述一项前缀的投影数据集,所述投影数据集中包含前缀在各个样本文本中所对应的后缀,一个后缀由一个样本文本中位于所述前缀后的训练语法关系标识所构成;
对各个所述一项前缀的投影数据集进行递归挖掘,得到多个参考序列模式,并根据所述多个参考序列模式确定所述任一训练语法关系序列对应的参考序列模式子集。
11.如权利要求10所述的方法,其特征在于,所述对各个所述一项前缀的投影数据集进行递归挖掘,得到多个参考序列模式,包括:
对各个所述一项前缀的投影数据集进行挖掘,得到至少一个二项前缀以及各个二项前缀对应的投影数据集;
若所述各个二项前缀的投影数据集均满足结束条件,则结束递归挖掘,并将所述各个二项前缀均作为参考序列模式;否则,则对不满足所述结束条件的二项前缀的投影数据集进行挖掘,得到至少一个三项前缀以及各个三项前缀的投影数据集;
若所述各个三项前缀的投影数据集均满足所述结束条件,则结束递归挖掘,并将所述各个三项前缀均作为参考序列模式;否则继续挖掘,直至挖掘得到的投影数据集满足所述结束条件;所述结束条件包括:所述挖掘得到的投影数据集为空,或所述挖掘得到的投影数据集中各训练语法关系标识的频率小于或等于频率阈值。
12.如权利要求11所述的方法,其特征在于,所述对所述一项前缀的投影数据集进行挖掘,得到至少一个二项前缀以及各个二项前缀的投影数据集,包括:
从所述一项前缀的投影数据集中选取第二频率大于所述频率阈值的至少一个训练语法关系标识;所述第二频率用于反映所述投影数据集中包含所述训练语法关系标识的后缀的数量;
将所述一项前缀与各所述训练语法关系标识合并,得到所述至少一个二项前缀,并获取所述各个二项前缀的投影数据集。
13.一种文本处理装置,其特征在于,包括:
获取单元,用于获取待识别的目标文本,所述目标文本包括多个字符;
处理单元,用于对所述目标文本进行语法关系分析,得到所述目标文本对应的目标语法关系序列,所述目标语法关系序列包括多个按序排列的语法关系标识;
所述处理单元,还用于将所述目标语法关系序列与参考序列模式集合中的各个参考序列模式进行匹配,选取与所述目标语法关系序列相匹配的匹配序列模式;其中,所述匹配序列模式包括N个参考标识,所述N个参考标识包括人名标识和M个参考语法关系标识,N和M均为大于1的整数且M小于N;所述目标语法关系序列包括所述M个参考语法关系标识,且所述M个参考语法关系标识在所述目标语法关系序列中的排列顺序与所述M个参考语法关系标识在所述匹配序列模式中的排列顺序相同;其中,所述参考序列模式集合是基于样本文本集进行序列模式挖掘得到的;
所述处理单元,还用于获取所述目标语法关系序列中处于第m个参考语法关系标识后的目标语法关系标识,并将所述目标文本中与所述目标语法关系标识对应的字符确定为人名字符;其中,m大于等于1且小于等于M,在所述匹配序列模式中所述人名标识排列在所述第m个参考语法关系标识后。
14.一种文本处理装置,其特征在于,包括:
获取单元,用于获取样本文本集,所述样本文本集中包含多个具有人名字符标注的样本文本;
处理单元,用于对所述样本文本集中每个样本文本进行语法关系分析,得到训练语法关系序列集合,所述训练语法关系序列集合中包括每个样本文本对应的训练语法关系序列;
所述处理单元,还用于根据训练语法关系序列集合对所述样本文本集进行序列模式挖掘,得到参考序列模式集合,所述参考序列模式集合用于与待识别的目标文本对应的目标语法关系序列进行匹配,选取与所述目标语法关系序列相匹配的匹配序列模式,以获取所述目标语法关系序列中处于第m个参考语法关系标识后的目标语法关系标识,并将所述目标文本中与所述目标语法关系标识对应的字符确定为人名字符;其中,所述匹配序列模式包括N个参考标识,所述N个参考标识包括人名标识和M个参考语法关系标识,N和M均为大于1的整数且M小于N,m大于等于1且小于等于M,在所述匹配序列模式中所述人名标识排列在所述第m个参考语法关系标识后。
15.一种文本处理设备,其特征在于,包括:
处理器,适于执行计算机程序;
计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1-5任一项所述的文本处理方法,或实现如权利要求6-12任一项所述的文本处理方法。
CN202110018456.0A 2021-01-07 2021-01-07 一种文本处理方法、装置及设备 Active CN112347767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110018456.0A CN112347767B (zh) 2021-01-07 2021-01-07 一种文本处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110018456.0A CN112347767B (zh) 2021-01-07 2021-01-07 一种文本处理方法、装置及设备

Publications (2)

Publication Number Publication Date
CN112347767A CN112347767A (zh) 2021-02-09
CN112347767B true CN112347767B (zh) 2021-04-06

Family

ID=74427852

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110018456.0A Active CN112347767B (zh) 2021-01-07 2021-01-07 一种文本处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN112347767B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113010642B (zh) * 2021-03-17 2023-12-15 腾讯科技(深圳)有限公司 语义关系的识别方法、装置、电子设备及可读存储介质
CN112989055B (zh) * 2021-04-29 2021-08-13 腾讯科技(深圳)有限公司 文本识别方法、装置、计算机设备和存储介质
CN116991969B (zh) * 2023-05-23 2024-03-19 暨南大学 可配置语法关系的检索方法、系统、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833582A (zh) * 2010-05-04 2010-09-15 吴毓杰 基于模板的词汇实体关联性挖掘方法与系统
US20150278378A1 (en) * 2012-03-29 2015-10-01 The Echo Nest Corporation Named entity extraction from a block of text
CN107704453A (zh) * 2017-10-23 2018-02-16 深圳市前海众兴电子商务有限公司 一种文字语义分析方法、文字语义分析终端及存储介质
CN111597321A (zh) * 2020-07-08 2020-08-28 腾讯科技(深圳)有限公司 问题答案的预测方法、装置、存储介质及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111651606B (zh) * 2020-06-05 2024-03-01 深圳市慧择时代科技有限公司 一种文本处理方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101833582A (zh) * 2010-05-04 2010-09-15 吴毓杰 基于模板的词汇实体关联性挖掘方法与系统
US20150278378A1 (en) * 2012-03-29 2015-10-01 The Echo Nest Corporation Named entity extraction from a block of text
CN107704453A (zh) * 2017-10-23 2018-02-16 深圳市前海众兴电子商务有限公司 一种文字语义分析方法、文字语义分析终端及存储介质
CN111597321A (zh) * 2020-07-08 2020-08-28 腾讯科技(深圳)有限公司 问题答案的预测方法、装置、存储介质及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Structural Semantic Interconnections: A Knowledge-Based Approach to Word Sense Disambiguation;Roberto Navigli et al.;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;20050731;第27卷(第7期);第1075-1086页 *
基于依存关系嵌入与条件随机场的商品属性抽取方法;李成梁 等;《数据分析与知识发现》;20200531;第4卷(第5期);第54-65页 *

Also Published As

Publication number Publication date
CN112347767A (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN112347767B (zh) 一种文本处理方法、装置及设备
CN106897428B (zh) 文本分类特征提取方法、文本分类方法及装置
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
CN110020422B (zh) 特征词的确定方法、装置和服务器
US10853566B2 (en) Systems and methods for automatically creating tables using auto-generated templates
CN109213844B (zh) 一种文本处理方法、装置以及相关设备
CN108304375A (zh) 一种信息识别方法及其设备、存储介质、终端
JP2020027649A (ja) エンティティ関係データ生成方法、装置、機器、及び記憶媒体
US11755654B2 (en) Category tag mining method, electronic device and non-transitory computer-readable storage medium
CN110362824B (zh) 一种自动纠错的方法、装置、终端设备及存储介质
CN110096573B (zh) 一种文本解析方法及装置
CN109858040A (zh) 命名实体识别方法、装置和计算机设备
CN110275940B (zh) 一种中文地址识别方法及设备
CN114091426A (zh) 一种处理数据仓库中字段数据的方法和装置
JP2007537515A (ja) 情報を取り出すためのシステムと方法および情報を保存するためのシステムと方法
CN113535977A (zh) 一种知识图谱融合方法和装置及设备
CN113836316B (zh) 三元组数据的处理方法、训练方法、装置、设备及介质
CN115221191A (zh) 一种基于数据湖的虚拟列构建方法以及数据查询方法
CN116383412B (zh) 基于知识图谱的功能点扩增方法和系统
CN112560425A (zh) 模板生成方法、装置、电子设备及存储介质
CN109145261B (zh) 一种生成标签的方法和装置
KR102560521B1 (ko) 지식 그래프 생성 방법 및 장치
CN114595696A (zh) 实体消歧方法、实体消歧装置、存储介质与电子设备
CN113535883A (zh) 商业场所实体链接方法、系统、电子设备及存储介质
CN112182235A (zh) 一种构建知识图谱的方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40038312

Country of ref document: HK