CN113705232B - 文本处理方法及装置 - Google Patents

文本处理方法及装置 Download PDF

Info

Publication number
CN113705232B
CN113705232B CN202110236391.7A CN202110236391A CN113705232B CN 113705232 B CN113705232 B CN 113705232B CN 202110236391 A CN202110236391 A CN 202110236391A CN 113705232 B CN113705232 B CN 113705232B
Authority
CN
China
Prior art keywords
clauses
clause
text
named entity
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110236391.7A
Other languages
English (en)
Other versions
CN113705232A (zh
Inventor
刘绍腾
杨天舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110236391.7A priority Critical patent/CN113705232B/zh
Publication of CN113705232A publication Critical patent/CN113705232A/zh
Application granted granted Critical
Publication of CN113705232B publication Critical patent/CN113705232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请属于人工智能技术领域,具体涉及一种文本处理方法及装置。该文本处理方法包括:对文本进行分句检测以获得一个或多个分句;当文本包括多个分句时,对多个分句进行命名实体识别,得到多个分句中包含的命名实体;根据多个分句中包含的命名实体确定多个分句中每个分句对的不同分句之间是否具有语义联系;当多个分句中存在至少预定数量个目标分句时,判定文本为异常文本,至少预定数量个目标分句中任意两个分句组成的分句对均为不具有语义联系的分句对。基于该方法可以高效准确地识别出拼凑的异常文本,避免人工对低质拼凑内容审核从而花费大量时间和人力成本。

Description

文本处理方法及装置
技术领域
本申请属于人工智能技术领域,具体涉及一种文本处理方法及装置。
背景技术
现如今,各种用户自制内容爆发式增长。在各种短视频平台、视频平台、文字内容平台下,都需要对低质内容进行审核,而拼凑标题就是低质内容的其中一个属性。拼凑标题可以是视频标题、新闻标题、文章标题等。相关技术中无法对拼凑的异常标题进行判定识别,使得视频、新闻、文章等信息流的质量无法得到把控。
而如果采用对视频、新闻、文章等信息流的标题进行人工审核的方式剔除低质内容,需要大量的人力投入,人力成本较高并且效率较慢,不适用于新迅速的各种用户自制内容平台。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请的目的在于提供一种文本处理方法及装置,至少在一定程度上克服相关技术中用户自制内容上的拼凑异常文本无法识别判定,而人工对拼凑异常内容进行审核需要花费大量成本的技术问题。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种文本处理方法。所述文本处理方法包括:
对文本进行分句检测以获得一个或多个分句;
当所述文本包括多个分句时,对所述多个分句进行命名实体识别,得到所述多个分句中包含的命名实体;
根据所述多个分句中包含的命名实体确定所述多个分句中每个分句对的不同分句之间是否具有语义联系,其中,每个所述分句对由所述多个分句中的任意两个分句组成;
当所述多个分句中存在至少预定数量个目标分句时,判定所述文本为异常文本,所述至少预定数量个目标分句中任意两个分句组成的分句对均为不具有语义联系的分句对。
根据本申请实施例的一个方面,提供一种文本处理装置。所述文本处理装置包括:
分句检测模块,被配置为对文本进行分句检测以获得一个或多个分句;
命名实体识别模块,被配置为当所述文本包括多个分句时,对所述多个分句进行命名实体识别,得到所述多个分句中包含的命名实体;
语义联系判定模块,被配置为根据所述多个分句中包含的命名实体确定所述多个分句中每个分句对的不同分句之间是否具有语义联系,其中,每个所述分句对由所述多个分句中的任意两个分句组成;
异常文本判定模块,所述多个分句中存在至少预定数量个目标分句时,判定所述文本为异常文本,所述至少预定数量个目标分句中任意两个分句组成的分句对均为不具有语义联系的分句对。
在本申请的一些实施例中,基于以上技术方案,所述语义联系判定模块包括:
第一命名实体配对单元,被配置为针对所述多个分句中每个分句对,从所述分句对的不同分句中分别选取一个命名实体组成命名实体对,并获取每个命名实体对的两个命名实体之间的余弦相似度;
第一语义联系判定单元,被配置为将两个命名实体之间的余弦相似度小于预设值的命名实体对确定为不具有语义联系的命名实体对;
第二语义联系判定单元,被配置为当所述分句对所包括的不具有语义联系的命名实体对的数量超过第一数量时,判定所述分句对的不同分句之间不具有语义联系。
在本申请的一些实施例中,基于以上技术方案,所述语义联系判定模块包括:
第二命名实体配对单元,被配置为针对所述多个分句中每个分句对,从所述分句对的不同分句中分别选取一个命名实体组成命名实体对;
第三语义联系判定单元,被配置为将所包括的两个命名实体互不相同的命名实体对确定为不具有语义联系的命名实体对;
第四语义联系判定单元,被配置为当所述分句对所包括的不具有语义联系的命名实体对的数量超过第二数量时,判定所述分句对的不同分句之间不具有语义联系。
在本申请的一些实施例中,基于以上技术方案,所述异常文本判定模块包括:
异常文本判定子单元,被配置为当所述文本中包括的多个分句的数量超过第三数量,并且所述多个分句中存在至少预定数量个目标分句时,判定所述文本为异常文本。
在本申请的一些实施例中,基于以上技术方案,所述命名实体识别模块包括:
特征提取单元,被配置为针对所述多个分句中的每个分句,提取所述分句中各个字符的字符特征;
编码单元,被配置为根据所述分句的字符特征对所述分句的字符进行编码;
分类单元,被配置为根据所述分句的字符的编码结果按照字符类别对所述字符进行分类,所述字符类别包括命名实体首字符、命名实体次字符和非命名实体字符;
输出单元,被配置为根据所述分句的字符的分类结果输出所述分句中包含的命名实体。
在本申请的一些实施例中,基于以上技术方案,所述特征提取单元包括:
标点符号去除单元,被配置为去除所述分句的标点符号;
特征提取子单元,被配置为对所述分句进行特征提取,得到所述分句中各个字符的特征向量。
在本申请的一些实施例中,基于以上技术方案,所述编码单元包括:
正向编码子单元,被配置为采用所述分句的正向语序对所述分句的各个字符的字符特征进行编码以得到所述字符的正向编码;
负向编码子单元,被配置为采用所述分句的负向语序对所述分句的各个字符的字符特征进行编码以得到所述字符的负向编码;
整合编码子单元,被配置为整合所述字符的所述正向编码与所述负向编码以得到所述字符的整合编码。
在本申请的一些实施例中,基于以上技术方案,所述输出单元包括:
分类子单元,被配置为根据所述分句的字符的分类结果得到所述分句中包含的命名实体;
输出子单元,将命名实体类型为目标命名实体类型的目标命名实体输出,其中,所述目标命名实体类型包括姓名、地名、组织名中的一种或多种。
在本申请的一些实施例中,基于以上技术方案,所述分句检测模块包括:
分句检测子单元,被配置为根据文本中的预设标点符号对所述文本进行分句检测以获得一个或多个分句。
根据本申请实施例的一个方面,提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如以上技术方案中的文本处理方法。
根据本申请实施例的一个方面,提供一种电子设备,该电子设备包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令来执行如以上技术方案中的文本处理方法。
根据本申请实施例的一个方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上技术方案中的文本处理方法。
在本申请实施例提供的技术方案中,通过根据多个分句的命名实体确定分句之间是否具有语义联系,当多个分句中存在至少预定数量个目标分句时,判定文本为异常文本。可以理解,多个分句中存在至少预定数量个目标分句时,而至少预定数量个目标分句中任意两个分句组成的分句对均为不具有语义联系的分句对,说明该至少预定数量的目标分句之间的相似度较低,由此,判定该文本为异常文本的判定准确度较高。由此,能够高效而准确地识别出异常拼凑文本,避免人工对低质拼凑内容审核从而花费大量时间和人力成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了应用本申请技术方案的示例性装置架构框图。
图2示意性地示出了本申请实施例提供的文本处理方法的步骤流程。
图3示意性地示出了本申请实施例提供的文本处理方法的处理过程示意图。
图4示意性地示出了本申请实施例中对多个分句进行命名实体识别,得到多个分句中包含的命名实体的步骤流程。
图5示意性地示出了本申请实施例中对多个分句进行命名实体识别,得到多个分句中包含的命名实体的具体过程示意图。
图6示意性地示出了本申请实施例中数据集的训练文本和训练文本的字符类别标注的对应关系示意图。
图7示意性地示出了本申请实施例中提取分句中各个字符的字符特征的步骤流程。
图8示意性地示出了本申请实施例中根据分句的字符特征对分句的字符进行编码的步骤流程。
图9示意性地示出了本申请实施例中根据多个分句中包含的命名实体确定多个分句中每个分句对的不同分句之间是否具有语义联系的步骤流程。
图10示意性地示出了本申请另一实施例中,根据多个分句中包含的命名实体确定多个分句中每个分句对的不同分句之间是否具有语义联系的步骤流程。
图11示意性地示出了本申请实施例中判断文本的分句的数量是否超过第三数量m,并判断是否所有分句之间的命名实体均不相同的具体流程图。
图12示意性地示出了本申请实施例提供的文本处理装置的结构框图。
图13示意性地示出了用于实现本申请实施例的电子设备的结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
在对本申请实施例提供的信息处理方法、信息处理装置等技术方案作出详细说明之前,先对本申请部分实施例中涉及的人工智能技术进行简单介绍。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用装置。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互装置、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
下面结合具体实施方式对本申请提供的文本处理方法及装置做出详细说明。
图1示意性地示出了应用本申请技术方案的示例性装置架构框图。
如图1所示,装置架构100可以包括终端设备110、网络120和服务器130。终端设备110可以包括智能手机、平板电脑、笔记本电脑、台式电脑等各种电子设备。服务器130可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式装置,还可以是提供云计算服务的云服务器。网络120可以是能够在终端设备110和服务器130之间提供通信链路的各种连接类型的通信介质,例如可以是有线通信链路或者无线通信链路。
根据实现需要,本申请实施例中的装置架构可以具有任意数目的终端设备、网络和服务器。例如,服务器130可以是由多个服务器设备组成的服务器群组。另外,本申请实施例提供的技术方案可以应用于终端设备110,也可以应用于服务器130,或者可以由终端设备110和服务器130共同实施,本申请对此不做特殊限定。
举例而言,当终端设备110向服务器130上传了包括视频及其标题的发布后,服务器130可以执行本申请提供的文本处理方法,从而对该终端设备110向服务器130上传的标题进行审核,判断该标题的文本是正常文本还是异常文本。具体地,可以判断该标题的文本是正常文本还是拼凑文本。从而服务器可以对终端设备上传的用户自制内容进行审核识别是否为拼凑异常文本,从而能够将拼凑标题和正常标题区分开,从而有利于对较有可能为低质内容的拼凑标题进行进一步管控,有利于防止视频平台上低质内容泛滥的现象产生。由此,可以在当下用户生成内容(UGC,User Generated Content)爆发增长的时代,自动化拒绝拼凑的低质内容,大大减少对低质内容进行人工审核的成本。
其中,拼凑标题可以是视频标题、新闻标题、文章标题等。例如,视频标题为“王XX谈导演聊天,许XX夸李XX和周XX,王XX和职业选手打游戏很激动!”、“陈X:杀手身份很吸引我!汪XX:我的笑点很低!赵XX化身餐厅服务员!”。可见,示例的标题中每个小句所表达的都是一个单独的事件,这种拼凑标题是为了吸引流量而拼凑的,内容质量低下。相关技术中无法对此类拼凑的异常标题进行判定识别,使得视频、新闻、文章等信息流的质量无法得到把控。
图2示意性地示出了本申请实施例提供的文本处理方法的步骤流程,该文本处理方法的执行主体可以是终端设备,也可以是服务器。如图2所示,该信息处理方法主要可以包括如下步骤S210~步骤S240:
S210.对文本进行分句检测以获得一个或多个分句;
S220.当文本包括多个分句时,对多个分句进行命名实体识别,得到多个分句中包含的命名实体;
S230.根据多个分句中包含的命名实体确定多个分句中每个分句对的不同分句之间是否具有语义联系,其中,每个分句对由多个分句中的任意两个分句组成;
S240.当多个分句中存在至少预定数量个目标分句时,判定文本为异常文本,至少预定数量个目标分句中任意两个分句组成的分句对均为不具有语义联系的分句对。
具体地,可以先对文本进行分句检测以获得一个或多个分句。当文本包括一个分句时,判定文本为正常文本。
而当文本包括多个分句时,对多个分句进行命名实体识别,得到多个分句中包含的命名实体,并根据多个分句中包含的命名实体确定多个分句中每个分句对的不同分句之间是否具有语义联系。其中,每个分句对由多个分句中的任意两个分句组成。当多个分句中存在至少预定数量个目标分句时,判定文本为异常文本。其中,至少预定数量个目标分句中,任意两个分句组成的分句对均为不具有语义联系的分句对。异常文本可以为拼凑的异常文本,也即拼凑文本。预定数量可以为2、3、4、5、6、7等,可以视具体的应用场景而定。
其中,文本可以为视频、新闻、文章等信息流的标题。在一些实施方式中,文本也可以为视频、新闻、文章等信息流的简介、摘要或者正文内容等。
命名实体可以包括人名、机构名、地名、时间、日期、货币和百分比等中的一类或多类。
在具体例子中,当多个分句之间具有上下文关系时,为多个分句之间具有语义联系,倾向于不满足多个分句中存在至少预定数量个目标分句。例如,文本1“我最喜欢看小白兔吃东西了。小白兔生性胆小,每次喂它吃东西时,它总是羞羞答答的,一副难为情的样子。可是小白兔今天一下午都没有吃东西了,大概是饿极”中的多个分句均包含同一个命名实体“小白兔”,全文中的每个分句均围绕“小白兔”进行描写,上下文关系明显,则为多个分句之间具有语义联系。采用本申请实施例所示的文本处理方法,当多个分句中存在至少预定数量个目标分句时,也就是说,至少预定数量个分句中的每个分句对均为不具有语义联系的分句对时,判定文本为异常文本。当某实施例的文本处理方法的预定数量设为2时,上述文本1不满足“多个分句中存在至少2个目标分句,使得至少2个目标分句中,任意两个分句组成的分句对均为不具有语义联系的分句对”的情况,不将该文本判定为拼凑文本,判定结果准确可靠,未将上述文本判定位拼凑文本。
图3示意性地示出了本申请实施例提供的文本处理方法的处理过程示意图。如图3所示,先将标题文本输入到分句检测模块310中对文本进行分句检测以获得一个或多个分句。当分句检测模块310检测到文本仅包括一个分句时,则将检测结果输出到逻辑判断模块330中。该逻辑判断模块330由于标题文本的分句数量仅为1,则判定文本为正常文本,并输出判断结果。
当分句检测模块310检测到文本包括多个分句时,则将检测结果和标题文本输入到NER(Named Entity Recognition,命名实体识别)模块中。该NER模块320对分句进行命名实体识别,得到分句中包含的命名实体,并将各分句的命名实体输出到逻辑判断模块330中。其中,NER是一种对文本进行命名实体识别的任务。命名实体包括文本中具有特定意义的实体,具体可以包括人名、地名、机构名、专有名词等。逻辑判断模块330先根据多个分句中包含的命名实体确定多个分句中每个分句对的不同分句之间是否具有语义联系,当多个分句中存在至少预定数量个目标分句时,判定文本为异常文本。
如果多个分句中存在至少预定数量个目标分句时,也就是说,标题文本中,至少预定数量个分句中的每个分句对均为不具有语义联系的分句对,即标题文本中的预定数量个分句之间没有语义上的联系,则将标题文本判断为异常标题,进一步地,判断为拼凑标题,使得本申请实施例的文本处理方法可以实现自动对标题进行检测并判断是否拼凑标题,从而能够避免对标题的人工审核,从而能够更高效率地从判定识别出拼凑标题,实现对拼凑标题、拼凑文本等低质内容进行监管,例如限流或者删除,进而能够防止视频平台上低质内容泛滥的现象产生的同时,可以减少因审核标题导致的时间和人工成本。
文本中的多个分句之间不具有语义联系,具体为文本中多于一个的多个分句中的任意两个分句均不具有语义联系。进一步地,可以是文本中的所有分句中的任意两个分句均不具有语义联系,也可以是文本中的多于第一数量的分句中的任意两个分句均不具有语义联系,具体例子将在以下实施例中进行说明。
在以上实施例的基础上,步骤S210.对文本进行分句检测以获得一个或多个分句,可以进一步包括以下步骤:
根据文本中的预设标点符号对文本进行分句检测以获得一个或多个分句。
其中,预设标点符号可以为句号、逗号、顿号、分号中的一种或多种。本申请实施例的文本处理方法根据文本中的预设标点符号对文本进行分句检测,可以获得一个或多个分句。在具体实施例中,可以基于开发语言Python的re库以及正则表达式搭建根据文本中的预设标点符号对文本进行分句检测以获得一个或多个分句的具体算法。
图4示意性地示出了本申请实施例中对多个分句进行命名实体识别,得到多个分句中包含的命名实体的步骤流程。如图4所示,在以上实施例的基础上,在某些实施例中,步骤S220中的对多个分句进行命名实体识别,得到多个分句中包含的命名实体,可以进一步包括以下步骤S410~步骤S440:
S410.针对多个分句中的每个分句,提取分句中各个字符的字符特征;
S420.根据分句的字符特征对分句的字符进行编码;
S430.根据分句的字符的编码结果按照字符类别对字符进行分类,字符类别包括命名实体首字符、命名实体次字符和非命名实体字符;
S440.根据分句的字符的分类结果输出分句中包含的命名实体。
本申请实施例的文本处理方法中,对分句进行命名实体识别,得到分句中包含的命名实体,具体地,可以先针对多个分句中的每个分句,提取分句中各个字符的字符特征。其中,字符特征可以为特征向量或者特征数组等。图5示意性地示出了本申请实施例中对多个分句进行命名实体识别,得到多个分句中包含的命名实体的具体过程示意图。
如图5所示,对多个分句进行命名实体识别,得到多个分句中包含的命名实体,可以将每个分句中的字符w_0、w_1、w_2……w_n依次输入预训练模型3210也即预训练模型BERT中,BERT是一种用于自然语言处理的预训练模型,应用于文本理解、机器翻译等任务,在本申请实施例中用于提取分句中各个字符的字符特征。预训练模型BERT提取每个分句中各个字符的字符特征之后,编码器3220根据该字符特征对分句的字符进行编码并将编码结果输出;然后,分类器3230根据字符的编码结果按照字符类别对字符进行分类,其中,字符类别包括命名实体首字符B、命名实体次字符I和非命名实体字符O。命名实体首字符B表示该字符为构成命名实体的首字符。命名实体次字符I表示该字符为构成命名实体的次字符。非命名实体字符O表示该字符不是构成命名实体的字符。最后,输出模块3240根据每个分句的字符的分类结果输出每个分句中包含的命名实体。
优选地,在使用NER模型320对分句进行命名实体识别,得到分句中包含的命名实体之前,可以先基于预训练模型BERT并根据图5所示的结构搭建好NER模型320后,再对NER模型320进行模型训练。具体地,可以将数据集输入到NER模型320中以对NER模型320进行模型训练。数据集中包括训练文本和训练文本的字符类别标注。利用数据集对NER模型320进行的模型训练过程可以是,将数据集输入到NER模型中,并根据训练文本的字符类别标注该NER模型进行训练,以使得该NER模型输出与训练文本的字符类别标注相匹配的分句的命名实体。其中,训练文本的字符类别标注也包括命名实体首字符B、命名实体次字符I和非命名实体字符O,与NER模型中的字符类别相对应。其中,命名实体首字符B又根据命名实体类型细分为“B-组织名”、“B-人名”、“B-地名”等,依据实施例中的命名实体类型而划分。而命名实体次字符I也根据命名实体类型细分为“I-组织名”、“I-人名”、“I-地名”等,依据实施例中的命名实体类型而划分。在具体实施方式中,可以采用“人民日报数据集”等作为训练NER模型230的数据集,该数据集的部分截取可以如图6所示。图6示意性地示出了本申请实施例中数据集的训练文本和训练文本的字符类别标注的对应关系示意图。如图6所示,“人民日报数据集”中的部分训练文本“中国队出征的选手除孔、刘两人外,男队员还有王XX、阎X、马X,女队员是王X、成XX。”中,“中国队”、“孔”、“刘”、“王XX”、“阎X”、“马X”、“王X”、“成XX”为命名实体。其中,命名实体“中国队”的“中”字符的字符类别标注为命名实体首字符B,“国”字符的字符类别标注为命名实体次字符I,“队”字符的字符类别标注为命名实体次字符I。而“出征”不是命名实体,“出征”的“出”字符不是构成命名实体的字符,该字符的字符类别标注是非命名实体字符O。其他字符的说明与此类似,在此不展开说明。
图7示意性地示出了本申请实施例中提取分句中各个字符的字符特征的步骤流程。如图7所示,在以上实施例的基础上步骤,字符特征可以包括特征向量,步骤S410中的提取分句中各个字符的字符特征,可以进一步包括以下步骤S710~步骤S720:
S710.去除分句的标点符号;
S720.对分句进行特征提取,得到分句中各个字符的特征向量。
接着,根据分句的字符特征对分句的字符进行编码,具体编码方式可以为如下所述。
本步骤中,先去除分句的标点符号,再对分句进行特征提取,得到分句中各个字符的特征向量。分句中可能包含有双引号、破折号、冒号等标点符号,而此步骤之前分句检测已经完成,因此,可以将分句中的标点符号去除,仅对去除标点符号之后的分句进行编码。
图8示意性地示出了本申请实施例中根据分句的字符特征对分句的字符进行编码的步骤流程。如图8所示,在以上实施例的基础上,字符特征包括特征向量,步骤S420.根据分句的字符特征对分句的字符进行编码,可以进一步包括以下步骤S810~步骤S830:
S810.采用分句的正向语序对分句的各个字符的字符特征进行编码以得到字符的正向编码;
其中,正向语序也即分句中从排列在前的字符到排列在后的字符的顺序。采用分句的正向语序对分句的各个字符的字符特征进行编码,具体地,可以为按照分句的正向语序对分句的各个字符的字符特征进行编码,使得每个字符的编码受分句中的所有前位字符的影响,以得到每个字符的正向编码。
请参阅图5,正向编码模块3221采用分句的正向语序对分句的各个字符w_0、w_1、w_2……w_n的字符特征进行编码以得到字符的正向编码l_0、l_1、l_2……l_n。其中,字符w_1的正向编码l_1的形成受字符w_0的正向编码l_0的影响,换而言之,字符w_1的正向编码l_1包含有字符w_0的正向编码l_0的信息。以此类推,字符w_2的正向编码l_2包含有字符w_0的正向编码l_0和字符w_1的正向编码l_1的信息……字符w_n的正向编码l_n包含有受字符w_n之前的所有字符的正向编码l_0……l_(n-1)的信息。
S820.采用分句的负向语序对分句的各个字符的字符特征进行编码以得到字符的负向编码;
其中,负向语序也即分句中从排列在后的字符到排列在前的字符的顺序。采用分句的负向语序对分句的各个字符的字符特征进行编码,具体地,可以为按照分句的负向语序对分句的各个字符的字符特征进行编码,使得每个字符的编码受分句中的所有后位字符的影响,以得到每个字符的负向编码。
请参阅图5,负向编码模块3222采用分句的负向语序对分句的各个字符w_0、w_1、w_2……w_n的字符特征进行编码以得到字符的负向编码r_0、r_1、r_2……r_n。其中,字符w_0的负向编码r_0的形成受字符w_0之后的所有字符的负向编码r_1……r_n的影响,换而言之,字符w_0的负向编码r_0包含有字符w_0之后的所有字符的负向编码r_1……r_n的信息。以此类推,字符w_1的负向编码r_1包含有字符w_1之后的所有字符的负向编码r_2……r_n的信息……字符w_(n-1)的负向编码r_(n-1)包含有字符w_(n-1)之后的字符w_n的负向编码r_n的信息。
在具体实施例中,可以采用BI-LSTM(Bi-Directional Long Short-Term Memory,双向长短期记忆人工神经网络)对分句的各个字符进行编码以得到字符的正向编码和负向编码。
S830.整合字符的正向编码与负向编码以得到字符的整合编码。
本步骤具体地,可以为将字符的正向编码与负向编码融合,以输出整合后的向量。例如,将字符的正向编码与负向编码融合的过程的表达式可以为:
其中,为字符的整合编码对应的向量。k1为第一权重值。/>为字符的正向编码对应的向量。k2为第二权重值。/>为字符的负向编码对应的向量。
具体实施例中,如图5所示,可以采用BI-LSTM中的整合编码模块3223将字符的正向编码特征与负向编码特征融合,以输出整合后的向量。
步骤S430.根据分句的字符的编码结果按照字符类别对字符进行分类,字符类别包括命名实体首字符、命名实体次字符和非命名实体字符,可以由图5所示的分类器3230执行。分类器3230包括全连接分类层3231和分类结果层3232。其中,全连接分类层3231用于根据分句的字符的编码结果按照字符类别对字符进行分类,并将全连接分类层根据字符的整合编码预测并分类而得到的分类结果存储在分类结果层3232中。
在以上实施例的基础上,步骤S440.根据分句的字符的分类结果输出分句中包含的命名实体。,可以进一步包括以下步骤:
根据所述分句的字符的分类结果得到所述分句中包含的命名实体;和
将命名实体类型为目标命名实体类型的目标命名实体输出,其中,所述目标命名实体类型包括姓名、地名、组织名中的一种或多种。
步骤S440可以由图5所示的输出模块3240执行。也就是说,输出模块3240可以根据所述分句的字符的分类结果得到所述分句中包含的命名实体,并将命名实体类型为目标命名实体类型的目标命名实体输出。
可以理解,姓名、地名、组织名是更有可能为标题等文本中的关键主语。而如果多个分句的文本中的关键主语均不相同,则该文本更有可能是拼凑文本,则将该文本判定为异常文本是合理的。仅将命名实体类型为目标命名实体类型的命名实体输出,并且目标命名实体类型包括姓名、地名、组织名中的一种或多种,可以使得本申请的文本处理方法能够将关注重点放在姓名、地名、组织名等更有可能为标题等文本中的关键主语的命名实体上,从而能够提高本申请实施例的文本处理方法对异常文本的判定识别的准确率。
在以上实施例的基础上,在另一些实施例中,步骤S220中的对多个分句进行命名实体识别,得到多个分句中包含的命名实体,也可以进一步包括以下步骤:
将分句输入到命名实体识别模型中,得到分句的命名实体。
请参阅图5,命名实体识别模型可以为图5所示的NER模型,命名实体识别模型包括:
特征提取模型,用于提取每个分句中各个字符的字符特征;
编码模块3220,用于根据分句的字符特征对分句的字符进行编码;
分类模块3230,用于根据分句的字符的编码结果按照字符类别对字符进行分类,字符类别包括命名实体首字符、命名实体次字符和非命名实体字符;
输出模块3240,用于根据每个分句的字符的分类结果输出每个分句中包含的命名实体。
其中,特征提取模型可以为预训练模型3210,也即预训练模型BERT。
命名实体识别模型对分句进行命名实体识别,得到分句中包含的命名实体的具体过程已经在前文进行描述,此处不再展开说明。
图9示意性地示出了本申请实施例中根据多个分句中包含的命名实体确定多个分句中每个分句对的不同分句之间是否具有语义联系的步骤流程。如图9所示,在以上实施例的基础上,步骤S230.根据多个分句中包含的命名实体确定多个分句中每个分句对的不同分句之间是否具有语义联系,可以进一步包括以下步骤S910~步骤S930:
S910.针对多个分句中每个分句对,从分句对的不同分句中分别选取一个命名实体组成命名实体对,并获取每个命名实体对的两个命名实体之间的余弦相似度;
S920.将两个命名实体之间的余弦相似度小于预设值的命名实体对确定为不具有语义联系的命名实体对;
S930.当分句对所包括的不具有语义联系的命名实体对的数量超过第一数量时,判定分句对的不同分句之间不具有语义联系。
在本实施例中,针对多个分句中每个分句对,从分句对的不同分句中分别选取一个命名实体组成命名实体对,并获取每个命名实体对的两个命名实体之间的余弦相似度,可以有利于获取不同分句之间的语义相似的程度。本实施例设有余弦相似度的预设值,该预设值大于0并且小于等于1。当不同分句中的两个命名实体之间的余弦相似度大于预设值时,可以理解,该两个命名实体的相似度较高。此时判定两个命名实体之间具有语义联系,也即将两个命名实体之间的余弦相似度大于预设值的命名实体对确定为具有语义联系的命名实体对,可以使得本申请实施方式的文本处理方法的判定较为准确。当不同分句中的两个命名实体之间的余弦相似度小于预设值时,可以理解,该两个命名实体的相似度较低。此时判定两个命名实体之间不具有语义联系,也即将两个命名实体之间的余弦相似度小于预设值的命名实体对确定为不具有语义联系的命名实体对,可以使得本申请实施方式的文本处理方法的判定较为准确。
可以理解,若分句对所包括的不具有语义联系的命名实体对的数量超过第一数量时,则该两个分句之间的相似程度较低。因此,当分句对所包括的不具有语义联系的命名实体对的数量超过第一数量时,判定分句对的不同分句之间不具有语义联系,可以使得判定结果准确可靠。
具体地,可以根据命名实体中的字符对应的整合编码得出该命名实体对应的特征向量,再根据两个命名实体的特征向量计算两个命名实体之间的余弦相似度。可知,整合编码具有分句的全句信息,有利于提高通过计算两个命名实体之间的余弦相似度以判断两个命名实体之间,乃至两个分句之间是否具有语义联系的准确性。
图10示意性地示出了本申请另一实施例中,根据多个分句中包含的命名实体确定多个分句中每个分句对的不同分句之间是否具有语义联系的步骤流程。如图10所示,在以上实施例的基础上,步骤S230.根据多个分句中包含的命名实体确定多个分句中每个分句对的不同分句之间是否具有语义联系,可以进一步包括以下步骤S1010~步骤S1030:
S1010.针对多个分句中每个分句对,从分句对的不同分句中分别选取一个命名实体组成命名实体对;
S1020.将所包括的两个命名实体互不相同的命名实体对确定为不具有语义联系的命名实体对;
S1030.当分句对所包括的不具有语义联系的命名实体对的数量超过第二数量时,判定分句对的不同分句之间不具有语义联系。
在本实施例中,针对多个分句中每个分句对,从分句对的不同分句中分别选取一个命名实体组成命名实体对。可以理解,当命名实体对中的两个命名实体不相同时,该两个命名实体的相似度较低。因此,将所包括的两个命名实体互不相同的命名实体对确定为不具有语义联系的命名实体对,也即当命名实体对中的两个命名实体不相同时,将命名实体对确定为不具有语义联系的命名实体对,可以使得本申请实施方式的文本处理方法的判定较为准确。
而若分句对所包括的不具有语义联系的命名实体对的数量超过第二数量时,则该两个分句之间的相似程度较低。因此,当分句对所包括的不具有语义联系的命名实体对的数量超过第二数量时,判定分句对的不同分句之间不具有语义联系,可以使得对异常拼凑文本判定结果准确可靠。
在以上实施例的基础上,步骤S240.当多个分句中存在至少预定数量个目标分句时,判定文本为异常文本,至少预定数量个目标分句中任意两个分句组成的分句对均为不具有语义联系的分句对,可以进一步包括以下步骤:
当文本中包括的多个分句的数量超过第三数量,并且多个分句中存在至少预定数量个目标分句时,判定文本为异常文本。
具体实施例中,当文本中包括的多个分句的数量超过第三数量,可知文本的分句较多,分句的上下文之间没有语义上的联系的可能性也更大,文本为拼凑异常文本的可能性也更大。而多个分句中存在至少预定数量个目标分句,说明至少预定数量个分句中的每个分句对均为不具有语义联系的分句,可以理解,说明该预定数量的分句之间的相似度较低。此时,判定分句之间不具有语义联系,该文本为异常文本,可以使得判定结果准确可靠。
进一步地,在某些实施例中,当文本的分句的数量超过第三数量,并且多个分句中存在至少预定数量个目标分句,预设数量等于文本中包含的分句的数量时,判定文本为异常文本。也即,当文本的分句的数量超过第三数量,并且文本中所有分句中的每个分句对均为不具有语义联系的分句时,判定文本为异常文本。此时,可以当命名实体对中的两个命名实体不相同时,将命名实体对确定为不具有语义联系的命名实体对。也就是说,文本的分句的数量超过第三数量,并所有分句之间的命名实体均不相同时,判定文本为异常文本。如此,可以理解,将文本判定为异常文本的条件更为严格,能够使得判定结果更为准确可靠,降低将正常文本误判为异常文本的概率。具体地,异常文本包括拼凑文本。
如图11所示,图11示意性地示出了本申请实施例中判断文本的分句的数量是否超过第三数量m,并判断是否所有分句之间的命名实体均不相同的具体流程图。请参阅图11,先如步骤1110所示,检测分句数量,识别并输出各个分句的命名实体。然后如步骤1120所示,判断分句数量是否大于第三数量m。当分句数量是否大于第三数量m时,如步骤1130所示,检测是否各个分句的命名实体不相同,并根据本申请上述实施方式所述的文本处理方法的方案输出对标题是拼凑标题或是正常标题的判断。其中第三数量m可以为2、3、4、5、6、7、8、9、10等,视具体的应用场景而定,本申请对此不作限制。例如,当本申请实施例的文本处理方法用于对视频的标题文本进行处理以识别是否为拼凑标题时,则可以当文本的分句的数量超过3,并且所有分句之间的命名实体均不相同时,判定分句之间不具有语义联系,能够使得判定结果准确可靠。
进一步地,余弦相似度的预设值可以与根据分句数量的多少而进行梯度设置。例如,当分句数量少于第三数量时,余弦相似度的预设值可以设置为第一预设值;当分句数量超过或等于第三数量时,余弦相似度的预设值可以设置为第二预设值。
相关技术中,可以采用分句检测模块直接检测分句数量,若检测到分句为多句,则判定为拼凑异常标题。然而,此种判定拼凑异常标题的方式的误判率较高。例如,对于标题“小明和小刚是邻居,他们同一年出生。小明的父亲是机关干部,母亲是国企员工,家境优越;小刚的父亲是普通工人,母亲下岗后在家开小卖部,生活拮据。”,经分句检测为多句,但是该标题上下文关系明显,不属于拼凑异常标题。针对此误判率较高的问题,本申请提供上述实施例所述的文本处理方法,通过根据多个分句中包含的命名实体确定多个分句中每个分句对的不同分句之间是否具有语义联系,当多个分句中存在至少预定数量个目标分句时,判定文本为异常文本,从而能够高效地识别出异常拼凑文本,避免人工对低质拼凑内容审核从而花费大量时间和人力成本,并且判定的准确率较高,可以避免对用户的正常内容及正常标题等文本误判成异常文本。例如前述的“小明和小刚是邻居……小明的父亲是……小刚的父亲是……。”虽然检测为三个分句,但是三个分句的得到命名实体之间有重合。第一个分句的命名主体为“小明”和“小刚”。第二个分句的命名主体为“小明”。第三个分句的命名主体为“小刚”。根据本申请上述实施例,当预定数量设为3时,不满足多个分句中存在至少3个目标分句的情况,也即不满足至少3个分句中的每个分句对均为不具有语义联系的分句对的情况,不将该标题判定为拼凑标题,判定结果准确可靠,未将上述标题判定位拼凑标题。
应当注意,尽管在附图中以特定顺序描述了本申请中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
以下介绍本申请的装置实施例,可以用于执行本申请上述实施例中的文本处理方法。图12示意性地示出了本申请实施例提供的文本处理装置的结构框图。如图12所示,文本处理装置1200可以包括:
分句检测模块1210,被配置为对文本进行分句检测以获得一个或多个分句;
命名实体识别模块1220,被配置为当文本包括多个分句时,对多个分句进行命名实体识别,得到多个分句中包含的命名实体;
语义联系判定模块1230,被配置为根据多个分句中包含的命名实体确定多个分句中每个分句对的不同分句之间是否具有语义联系,其中,每个分句对由多个分句中的任意两个分句组成;
异常文本判定模块1240,多个分句中存在至少预定数量个目标分句时,判定文本为异常文本,至少预定数量个目标分句中任意两个分句组成的分句对均为不具有语义联系的分句对。
在本申请的一些实施例中,基于以上各实施例,语义联系判定模块包括:
第一命名实体配对单元,被配置为针对多个分句中每个分句对,从分句对的不同分句中分别选取一个命名实体组成命名实体对,并获取每个命名实体对的两个命名实体之间的余弦相似度;
第一语义联系判定单元,被配置为将两个命名实体之间的余弦相似度小于预设值的命名实体对确定为不具有语义联系的命名实体对;
第二语义联系判定单元,被配置为当分句对所包括的不具有语义联系的命名实体对的数量超过第一数量时,判定分句对的不同分句之间不具有语义联系。
在本申请的一些实施例中,基于以上各实施例,语义联系判定模块包括:
第二命名实体配对单元,被配置为针对多个分句中每个分句对,从分句对的不同分句中分别选取一个命名实体组成命名实体对;
第三语义联系判定单元,被配置为将所包括的两个命名实体互不相同的命名实体对确定为不具有语义联系的命名实体对;
第四语义联系判定单元,被配置为当分句对所包括的不具有语义联系的命名实体对的数量超过第二数量时,判定分句对的不同分句之间不具有语义联系。
在本申请的一些实施例中,基于以上各实施例,异常文本判定模块包括:
异常文本判定子单元,被配置为当文本中包括的多个分句的数量超过第三数量,并且多个分句中存在至少预定数量个目标分句时,判定文本为异常文本。
在本申请的一些实施例中,基于以上各实施例,命名实体识别模块包括:
特征提取单元,被配置为针对多个分句中的每个分句,提取分句中各个字符的字符特征;
编码单元,被配置为根据分句的字符特征对分句的字符进行编码;
分类单元,被配置为根据分句的字符的编码结果按照字符类别对字符进行分类,字符类别包括命名实体首字符、命名实体次字符和非命名实体字符;
输出单元,被配置为根据分句的字符的分类结果输出分句中包含的命名实体。
在本申请的一些实施例中,基于以上各实施例,特征提取单元包括:
标点符号去除单元,被配置为去除分句的标点符号;
特征提取子单元,被配置为对分句进行特征提取,得到分句中各个字符的特征向量。
在本申请的一些实施例中,基于以上各实施例,编码单元包括:
正向编码子单元,被配置为采用分句的正向语序对分句的各个字符的字符特征进行编码以得到字符的正向编码;
负向编码子单元,被配置为采用分句的负向语序对分句的各个字符的字符特征进行编码以得到字符的负向编码;
整合编码子单元,被配置为整合字符的正向编码与负向编码以得到字符的整合编码。
在本申请的一些实施例中,基于以上各实施例,输出单元包括:
分类子单元,被配置为根据分句的字符的分类结果得到分句中包含的命名实体;
输出子单元,将命名实体类型为目标命名实体类型的目标命名实体输出,其中,目标命名实体类型包括姓名、地名、组织名中的一种或多种。
在本申请的一些实施例中,基于以上各实施例,分句检测模块包括:
分句检测子单元,被配置为根据文本中的预设标点符号对文本进行分句检测以获得一个或多个分句。
本申请各实施例中提供的文本处理装置的具体细节已经在对应的方法实施例中进行了详细的描述,此处不再赘述。
图13示意性地示出了用于实现本申请实施例的电子设备的结构框图。
需要说明的是,图13示出的电子设备1300仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图13所示,电子设备1300包括中央处理器1301(Central Processing Unit,CPU),其可以根据存储在只读存储器1302(Read-Only Memory,ROM)中的程序或者从存储部分1308加载到随机访问存储器1303(RandomAccess Memory,RAM)中的程序而执行各种适当的动作和处理。在随机访问存储器1303中,还存储有装置工作所需的各种程序和数据。中央处理器1301、在只读存储器1302以及随机访问存储器1303通过总线1304彼此相连。输入/输出接口1305(Input/Output接口,即I/O接口)也连接至总线1304。
以下部件连接至输入/输出接口1305:包括键盘、鼠标等的输入部分1306;包括诸如阴极射线管(Cathode Ray Tube,CRT)、液晶显示器(Liquid Crystal Display,LCD)等以及扬声器等的输出部分1307;包括硬盘等的存储部分1308;以及包括诸如局域网卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至输入/输出接口1305。可拆卸介质1311,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1310上,以便于从其上读出的计算机程序根据需要被安装入存储部分1308。
特别地,根据本申请的实施例,各个方法流程图中所描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1309从网络上被下载和安装,和/或从可拆卸介质1311被安装。在该计算机程序被中央处理器1301执行时,执行本申请的装置中限定的各种功能。
需要说明的是,本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本申请实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (12)

1.一种文本处理方法,其特征在于,包括:
对文本进行分句检测以获得一个或多个分句;
当所述文本包括多个分句时,对所述多个分句进行命名实体识别,得到所述多个分句中包含的命名实体;
根据所述多个分句中包含的命名实体确定所述多个分句中每个分句对的不同分句之间是否具有语义联系,其中,每个所述分句对由所述多个分句中的任意两个分句组成;
当所述多个分句中存在至少预定数量个目标分句时,判定所述文本为拼凑而成的异常文本,所述至少预定数量个目标分句中任意两个分句组成的分句对均为不具有语义联系的分句对;
其中,所述根据所述多个分句中包含的命名实体确定所述多个分句中每个分句对的不同分句之间是否具有语义联系,包括:
针对所述多个分句中每个分句对,从所述分句对的不同分句中分别选取一个命名实体组成命名实体对,并获取每个命名实体对的两个命名实体之间的余弦相似度;
将两个命名实体之间的余弦相似度小于预设值的命名实体对确定为不具有语义联系的命名实体对;
当所述分句对所包括的不具有语义联系的命名实体对的数量超过第一数量时,判定所述分句对的不同分句之间不具有语义联系。
2.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述多个分句中包含的命名实体确定所述多个分句中每个分句对的不同分句之间是否具有语义联系,包括:
针对所述多个分句中每个分句对,从所述分句对的不同分句中分别选取一个命名实体组成命名实体对;
将所包括的两个命名实体互不相同的命名实体对确定为不具有语义联系的命名实体对;
当所述分句对所包括的不具有语义联系的命名实体对的数量超过第二数量时,判定所述分句对的不同分句之间不具有语义联系。
3.根据权利要求1所述的文本处理方法,其特征在于,所述当所述多个分句中存在至少预定数量个目标分句时,判定所述文本为异常文本,包括:
当所述文本中包括的多个分句的数量超过第三数量,并且所述多个分句中存在至少预定数量个目标分句时,判定所述文本为异常文本。
4.根据权利要求1所述的文本处理方法,其特征在于,所述对所述多个分句进行命名实体识别,得到所述多个分句中包含的命名实体,包括:
针对所述多个分句中的每个分句,提取所述分句中各个字符的字符特征;
根据所述分句的字符特征对所述分句的字符进行编码;
根据所述分句的字符的编码结果按照字符类别对所述字符进行分类,所述字符类别包括命名实体首字符、命名实体次字符和非命名实体字符;
根据所述分句的字符的分类结果输出所述分句中包含的命名实体。
5.根据权利要求4所述的文本处理方法,其特征在于,所述字符特征包括特征向量,所述提取所述分句中各个字符的字符特征,包括:
去除所述分句的标点符号;
对所述分句进行特征提取,得到所述分句中各个字符的特征向量。
6.根据权利要求4所述的文本处理方法,其特征在于,所述根据所述分句的字符特征对所述分句的字符进行编码,包括:
采用所述分句的正向语序对所述分句的各个字符的字符特征进行编码以得到所述字符的正向编码;
采用所述分句的负向语序对所述分句的各个字符的字符特征进行编码以得到所述字符的负向编码;
整合所述字符的所述正向编码与所述负向编码以得到所述字符的整合编码。
7.根据权利要求4所述的文本处理方法,其特征在于,所述根据所述分句的字符的分类结果输出所述分句中包含的命名实体,包括:
根据所述分句的字符的分类结果得到所述分句中包含的命名实体;
将命名实体类型为目标命名实体类型的目标命名实体输出,其中,所述目标命名实体类型包括姓名、地名、组织名中的一种或多种。
8.根据权利要求1所述的文本处理方法,其特征在于,所述对文本进行分句检测以获得一个或多个分句,包括:
根据文本中的预设标点符号对所述文本进行分句检测以获得一个或多个分句。
9.一种文本处理装置,其特征在于,包括:
分句检测模块,被配置为对文本进行分句检测以获得一个或多个分句;
命名实体识别模块,被配置为当所述文本包括多个分句时,对所述多个分句进行命名实体识别,得到所述多个分句中包含的命名实体;
语义联系判定模块,被配置为根据所述多个分句中包含的命名实体确定所述多个分句中每个分句对的不同分句之间是否具有语义联系,其中,每个所述分句对由所述多个分句中的任意两个分句组成;
异常文本判定模块,被配置为当所述多个分句中存在至少预定数量个目标分句时,判定所述文本为拼凑而成的异常文本,所述至少预定数量个目标分句中任意两个分句组成的分句对均为不具有语义联系的分句对;
其中,所述根据所述多个分句中包含的命名实体确定所述多个分句中每个分句对的不同分句之间是否具有语义联系,包括:
针对所述多个分句中每个分句对,从所述分句对的不同分句中分别选取一个命名实体组成命名实体对,并获取每个命名实体对的两个命名实体之间的余弦相似度;将两个命名实体之间的余弦相似度小于预设值的命名实体对确定为不具有语义联系的命名实体对;当所述分句对所包括的不具有语义联系的命名实体对的数量超过第一数量时,判定所述分句对的不同分句之间不具有语义联系。
10.一种计算机可读介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的文本处理方法。
11.一种电子设备,其特征在于,所述电子设备包括:
处理器;
以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器被配置为经由执行所述可执行指令执行如权利要求1至8中任一项所述的文本处理方法。
12.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行如权利要求1至8中任一项所述的文本处理方法。
CN202110236391.7A 2021-03-03 2021-03-03 文本处理方法及装置 Active CN113705232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110236391.7A CN113705232B (zh) 2021-03-03 2021-03-03 文本处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110236391.7A CN113705232B (zh) 2021-03-03 2021-03-03 文本处理方法及装置

Publications (2)

Publication Number Publication Date
CN113705232A CN113705232A (zh) 2021-11-26
CN113705232B true CN113705232B (zh) 2024-05-07

Family

ID=78647805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110236391.7A Active CN113705232B (zh) 2021-03-03 2021-03-03 文本处理方法及装置

Country Status (1)

Country Link
CN (1) CN113705232B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615705A (zh) * 2015-01-30 2015-05-13 百度在线网络技术(北京)有限公司 网页质量检测方法及装置
CN110472248A (zh) * 2019-08-22 2019-11-19 广东工业大学 一种中文文本命名实体的识别方法
CN111611775A (zh) * 2020-05-14 2020-09-01 沈阳东软熙康医疗系统有限公司 一种实体识别模型生成方法、实体识别方法及装置、设备
CN111695345A (zh) * 2020-06-12 2020-09-22 腾讯科技(深圳)有限公司 文本中实体识别方法、以及装置
CN111832308A (zh) * 2020-07-17 2020-10-27 苏州思必驰信息科技有限公司 语音识别文本连贯性处理方法和装置
CN111950269A (zh) * 2020-08-21 2020-11-17 清华大学 文本语句处理方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2619193C1 (ru) * 2016-06-17 2017-05-12 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615705A (zh) * 2015-01-30 2015-05-13 百度在线网络技术(北京)有限公司 网页质量检测方法及装置
CN110472248A (zh) * 2019-08-22 2019-11-19 广东工业大学 一种中文文本命名实体的识别方法
CN111611775A (zh) * 2020-05-14 2020-09-01 沈阳东软熙康医疗系统有限公司 一种实体识别模型生成方法、实体识别方法及装置、设备
CN111695345A (zh) * 2020-06-12 2020-09-22 腾讯科技(深圳)有限公司 文本中实体识别方法、以及装置
CN111832308A (zh) * 2020-07-17 2020-10-27 苏州思必驰信息科技有限公司 语音识别文本连贯性处理方法和装置
CN111950269A (zh) * 2020-08-21 2020-11-17 清华大学 文本语句处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN113705232A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
KR102455616B1 (ko) 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체
CN111737552A (zh) 训练信息抽取模型和获取知识图谱的方法、装置和设备
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
CN111723784B (zh) 一种风险视频识别方法、装置和电子设备
CN112131881B (zh) 信息抽取方法及装置、电子设备、存储介质
CN113705299A (zh) 一种视频识别的方法、装置及存储介质
CN110795944A (zh) 推荐内容处理方法及装置、情感属性确定方法及装置
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
CN112131430A (zh) 视频聚类方法、装置、存储介质和电子设备
CN112015928A (zh) 多媒体资源的信息提取方法、装置、电子设备及存储介质
CN111382231A (zh) 意图识别系统及方法
CN113849623A (zh) 文本视觉问答方法和装置
CN113011172A (zh) 文本处理方法、装置、计算机设备和存储介质
CN110852071B (zh) 知识点检测方法、装置、设备及可读存储介质
CN114357204B (zh) 媒体信息的处理方法及相关设备
CN115114469B (zh) 一种图片识别方法、装置、设备及存储介质
CN115248855A (zh) 文本处理方法及装置、电子设备、计算机可读存储介质
CN113705207A (zh) 语法错误识别方法及装置
CN113705232B (zh) 文本处理方法及装置
CN116975275A (zh) 多语种文本分类模型训练方法、装置和计算机设备
CN113569091B (zh) 视频数据的处理方法、装置
CN114116967A (zh) 数据的清洗方法、装置、电子设备及计算机可读介质
US11977853B2 (en) Aggregating and identifying new sign language signs
CN117131152B (zh) 信息存储方法、装置、电子设备和计算机可读介质
CN117540003B (zh) 一种文本处理方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant