CN112989054A - 一种文本处理方法和装置 - Google Patents

一种文本处理方法和装置 Download PDF

Info

Publication number
CN112989054A
CN112989054A CN202110452764.4A CN202110452764A CN112989054A CN 112989054 A CN112989054 A CN 112989054A CN 202110452764 A CN202110452764 A CN 202110452764A CN 112989054 A CN112989054 A CN 112989054A
Authority
CN
China
Prior art keywords
text
word
processed
words
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110452764.4A
Other languages
English (en)
Other versions
CN112989054B (zh
Inventor
刘志煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110452764.4A priority Critical patent/CN112989054B/zh
Publication of CN112989054A publication Critical patent/CN112989054A/zh
Application granted granted Critical
Publication of CN112989054B publication Critical patent/CN112989054B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文本处理方法和装置;本发明实施例在获取待处理文本后,并对待处理文本的文本内容进行识别,得到待处理文本的文本词集合和文本词集合中每一文本词对应的词性,然后,根据文本词的词性,在文本词集合中筛选出待处理文本中用于分类的目标文本词和机构名实体,该机构名实体用于指示待处理文本中出现的机构名称,然后,基于机构名实体和目标文本词,将文本词集合转换为文本信息,通过云平台对文本信息进行特征提取,得到待处理文本的文本特征,然后,根据文本特征确定待处理文本的分配路径,并基于分配路径分配待处理文本;该方案可以提升文本处理的准确性。

Description

一种文本处理方法和装置
技术领域
本发明涉及通信技术领域,具体涉及一种文本处理方法和装置。
背景技术
近年来,随着互联网技术的飞速发展,线上业务也越来越多样。线上业务中需要对信息进行处理,尤其是文本信息,对文本信息的处理过程就包含了将文本信息分配至对应的处理节点来处理。现有的文本处理方法往往基于模板对文本进行分类,从而对文本进行分配处理。
在对现有技术的研究和实践过程中,本发明的发明人发现基于模板的处理方法往往依赖于人工给定的规则和模板,在处理过程中泛化能力降低,而且通用性不足,因此,导致文本处理的准确性不足。
发明内容
本发明实施例提供一种文本处理方法和装置,可以提高文本处理的准确性。
一种文本处理方法,包括:
获取待处理文本,并对所述待处理文本的文本内容进行识别,得到所述待处理文本的文本词集合和所述文本词集合中每一文本词对应的词性;
根据所述文本词的词性,在所述文本词集合中筛选出所述待处理文本中用于分类的目标文本词和机构名实体,所述机构名实体用于指示所述待处理文本中出现的机构名称;
基于所述机构名实体和目标文本词,将所述文本词集合转换为文本信息;
对所述文本信息进行特征提取,得到所述待处理文本的文本特征;
根据所述文本特征确定所述待处理文本的分配路径,并基于所述分配路径分配所述待处理文本。
相应的,本发明实施例提供一种文本处理装置,包括:
获取单元,用于获取待处理文本,并对所述待处理文本的文本内容进行识别,得到所述待处理文本的文本词集合和所述文本词集合中每一文本词对应的词性;
筛选单元,用于根据所述文本词的词性,在所述文本词集合中筛选出所述待处理文本中用于分类的目标文本词和机构名实体,所述机构名实体用于指示所述待处理文本中出现的机构名称;
转换单元,用于基于所述机构名实体和目标文本词,将所述文本词集合转换为文本信息;
提取单元,用于对所述文本信息进行特征提取,得到所述待处理文本的文本特征;
处理单元,用于根据所述文本特征确定所述待处理文本的分配路径,并基于所述分配路径分配所述待处理文本,以对所述待处理文本进行处理。
可选的,在一些实施例中,所述筛选单元,具体可以用于获取所述文本词集合中所有文本词的文本属性信息;根据所述文本词的词性和文本属性信息,在所述文本词集合中筛选出所述待处理文本中用于分类的目标文本词;基于预设实体识别策略,在所述文本词集合中识别出所述机构名实体。
可选的,在一些实施例中,所述筛选单元,具体可以用于根据所述文本词的词性,在所述文本词集合中筛选出所述待处理文本的主题词,所述主题词为表征所述待处理文本主题的词;基于所述文本属性信息,在所述文本词集合中提取出待处理文本中的关键词,并将所述主题词和关键词作为用于分类的目标文本词,所述关键词为区别所述待处理文本类别的词。
可选的,在一些实施例中,所述筛选单元,具体可以用于根据预设领域词典,对所述文本词集合中的文本词进行分类,得到所述文本词集合中每一文本词的词类型;获取所述词类型对应的初始主题权重和所述词性对应的权重调整参数;基于所述权重调整参数,对所述文本词的初始主题权重进行调整,得到所述文本词集合中每一文本词对应的主题权重;根据所述主题权重,在所述文本词集合中筛选出所述待处理文本的主题词。
可选的,在一些实施例中,所述筛选单元,具体可以用于对所述待处理文本进行文本区域划分,并在所述文本词集合中筛选出每一文本区域对应的候选文本词;根据所述文本属性信息,统计所述候选文本词在所述待处理文本中的词频信息;基于所述词频信息,在所述文本词集合中提取出所述待处理文本中的关键词。
可选的,在一些实施例中,所述筛选单元,具体可以用于根据所述预设实体识别策略,在所述文本词集合中识别出实体,得到实体集合;确定所述实体集合中每一实体的实体类型,并基于所述实体类型,在所述实体集合中筛选出所述机构名实体。
可选的,在一些实施例中,所述转换单元,具体可以用于将所述文本词集合中每一文本词转换为初始文本信息;基于所述机构名实体和目标文本词,对所述初始文本信息进行加权,得到所述文本信息。
可选的,在一些实施例中,所述转换单元,具体可以用于获取所述机构名实体和目标文本词分别对应的文本权重;根据所述文本权重,确定所述文本词集合中每一文本词对应的目标文本权重;基于所述目标文本权重,对所述初始文本信息进行加权,得到所述文本信息。
可选的,在一些实施例中,所述转换单元,具体可以用于当所述文本集合中的文本词属于所述机构名实体或目标文本词时,将所述机构名实体或目标文本词对应的文本权重作为所述文本集合中的文本词对应的目标文本权重;当所述文本集合中的文本词属于所述机构名实体和目标文本词时,在所述文本权重中筛选出最大的文本权重作为所述文本词集合中的文本词对应的目标文本权重;当所述文本集合中的文本词不属于所述机构名实体和目标文本词时,在所述文本权重中筛选出最小的文本权重作为所述文本词集合中的文本词对应的目标文本权重。
可选的,在一些实施例中,所述获取单元,具体可以用于对所述待处理文本的文本内容进行过滤,得到过滤后文本内容;对所述过滤后文本内容进行分词处理,得到所述待处理文本的初始文本词;识别所述初始文本词的词性,并根据所述初始文本词的词性,对所述初始文本词进行调整,得到所述文本词集合;基于所述初始文本词的词性,确定所述文本词集合中每一文本词对应的词性。
可选的,在一些实施例中,所述提取单元,具体可以用于对所述文本词集合中每一文本词进行独热编码,得到文本词编码;采用训练后处理模型将所述文本词编码与所述文本信息进行融合,得到融合后文本信息;对所述融合后文本信息进行特征提取,得到所述待处理文本的文本特征。
可选的,在一些实施例中,所述文本处理装置还以包括训练单元,所述训练单元,具体可以用于构建文本样本集合,所述文本样本集合中包括已标注分配路径的文本;采用预设处理模型对所述文本样本集合中文本样本的分配路径进行预测,得到预测分配路径;根据所述预测分配路径与标注分配路径对所述预设处理模型进行收敛,得到所述训练后处理模型。
可选的,在一些实施例中,所述训练单元,具体可以用于采用所述特征提取子模型对所述文本样本集合中的文本样本进行特征提取,得到目标文本特征;采用所述分类子模型对所述目标文本特征进行分类,得到所述文本样本集合中文本样本的文本类型;根据所述文本样本集合中文本样本的文本类型,确定所述预测分配路径。
可选的,在一些实施例中,所述处理单元,具体可以用于分别计算所述文本特征与所述文本样本集合中每一文本样本的预设文本特征之间的文本相似度;根据所述文本相似度,在所述文本样本集合中提取出与所述待处理文本相似的至少一个候选文本样本;在所述候选文本样本的分配路径中筛选出所述待处理文本的分配路径。
此外,本发明实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序实现本发明实施例提供的文本处理方法。
此外,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种文本处理方法中的步骤。
本申请实施例在获取待处理文本后,并对待处理文本的文本内容进行识别,得到待处理文本的文本词集合和文本词集合中每一文本词对应的词性,然后,根据文本词的词性,在文本词集合中筛选出待处理文本中用于分类的目标文本词和机构名实体,该机构名实体用于指示待处理文本中出现的机构名称,然后,基于机构名实体和目标文本词,将文本词集合转换为文本信息,对文本信息进行特征提取,得到待处理文本的文本特征,然后,根据文本特征确定待处理文本的分配路径,并基于分配路径分配待处理文本,以对待处理文本进行处理;由于该方案融合了待处理文本中用于分类的目标文本词和机构名实体等准确全面的待处理文本的文本特征,从而可以基于文本特征,对待处理文本进行分配,因此,可以提升文本处理的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文本处理方法的场景示意图;
图2是本发明实施例提供的文本处理方法的流程示意图;
图3是本发明实施例提供的文本信息融合的示意图;
图4是本发明实施例提供的处理模型的结构示意图;
图5是本发明实施例提供的文本处理方法的另一流程图;
图6是本发明实施例提供的待处理公文处理的流程示意图;
图7是本发明实施例提供的文本处理装置的结构示意图;
图8是本发明实施例提供的文本处理装置的另一结构示意图;
图9是本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种文本处理方法、装置和计算机可读存储介质。其中,该文本装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
例如,参见图1,以文本处理装置集成在电子设备中为例,电子设备在获取待处理文本后,并对待处理文本的文本内容进行识别,得到待处理文本的文本词集合和文本词集合中每一文本词对应的词性,然后,根据文本词的词性,在文本词集合中筛选出待处理文本中用于分类的目标文本词和机构名实体,该机构名实体用于指示待处理文本中出现的机构名称,然后,基于机构名实体和目标文本词,将文本词集合转换为文本信息,对文本信息进行特征提取,得到待处理文本的文本特征,然后,根据文本特征确定待处理文本的分配路径,并基于分配路径分配待处理文本,以对待处理文本进行处理。
其中,本方案中的文本处理可以理解为识别出待处理文本的分配路径,并基于该分配路径将待处理文本分配至可以处理该待处理文本的终端或服务器,使得终端或服务器对待处理文本进行处理,这里的终端和服务器可以为集成在文本处理装置内的终端和服务器,也可以为文本处理装置外部的终端和服务器。
其中,本申请实施例提供的文本处理方法涉及到人工智能领域的自然语言处理方法。本申请实施例中可以对待处理文本的文本信息进行特征提取,得到待处理文本的文本特征,根据文本特征确定待处理文本的分配路径,并基于该分配路径分配待处理文本。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。其中,人工智能软件技术主要包括计算机视觉技术、机器学习/深度学习等方向。
自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
其中,可以在云平台上对文本信息进行特征提取,还可以将提取到待处理文本的文本特征存储至云平台。所谓云平台也称云计算平台,是指基于硬件资源和软件资源的服务,提供计算、网络和存储能力。云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。
以下分别进行详细说明。需要说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从文本处理装置的角度进行描述,该文本处理装置具体可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备;其中,该终端可以包括平板电脑、笔记本电脑、以及个人计算机(PC,Personal Computer)、可穿戴设备、虚拟现实设备或其他可以处理文本的智能设备等设备。
一种文本处理方法,包括:
获取待处理文本,并对待处理文本的文本内容进行识别,得到待处理文本的文本词集合和文本词集合中每一文本词对应的词性,根据文本词的词性,在文本词集合中筛选出待处理文本中用于分类的目标文本词和机构名实体,该机构名实体用于指示待处理文本中出现的机构名称,基于机构名实体和目标文本词,将文本词集合转换为文本信息,对文本信息进行特征提取,得到待处理文本的文本特征,根据文本特征确定待处理文本的分配路径,并基于分配路径分配待处理文本,以对待处理文本进行处理。
如图2所示,该文本处理方法的具体流程如下:
101、获取待处理文本,并对待处理文本的文本内容进行识别,得到待处理文本的文本词集合和文本词集合中每一文本词对应的词性。
其中,文本词可以为待处理文本中包含的词或词组,对应的,文本词集合就可以为待处理文本中包含的全部的词或词组,比如,以待处理文本的内容为“我是中国人”为例,则文本词就可以为“我、是、中、国、人”,也可以为“我、是、中国人”,将这些文本词组合,就可以得到文本词集合,文本词集合中还可以包括待处理文本的文本内容中相应的标点符号等。文本词集合中的文本词的语言可以为任意语言,比如,可以为中文、英文、法文、德文和/或俄文等,文本内容可以为一种语言构成,也可以为多种语言组合而成。
例如,可以获取待处理文本,并对待处理文本的文本内容进行识别,得到所述待处理文本的文本词集合和文本词集合中每一文本词对应的词性,具体可以如下:
(1)获取待处理文本。
例如,可以直接获取待处理文本,比如,用户可以通过终端将待处理文本上传至文本处理装置,文本处理装置还可以在网络或者数据库中爬取文本,将爬取到的文本作为待处理文本,还可以对爬取到的文本进行过滤,在爬取到的文本中筛选出需要处理的文本,从而得到待处理文本。当待处理文本较多时,还可以间接获取待处理文本,比如,用户通过终端将待处理文本进行存储,然后,触发生成文本处理请求,将存储地址添加至文本处理请求中,并将添加存储地址的文本处理请求发送至文本处理装置,文本处理装置在接收到文本处理请求之后,在文本处理请求中提取出存储地址,根据存储地址,获取待处理文本,在获取到待处理文本之后,还可以给用户发送提示信息,以提示用户获取到待处理文本。
(2)对待处理文本的文本内容进行识别,得到待处理文本的文本词集合和文本词中每一文本词对应的词性。
例如,可以对待处理文本的文本内容进行过滤,得到过滤后文本内容,比如,在待处理文本中识别出文本内容,对文本内容中的无用信息进行过滤,无用信息可以包括停用词、日期时间、姓名、邮箱、手机号码等,针对不同类型的无用信息可以采用不同的过滤方法,比如,针对停用词的过滤,就可以基于停用词库进行过滤,譬如,在文本内容中筛选出停用词库中包含的内容,从而得到文本内容中的停用词,将该停用词进行过滤。针对除了停用词以外的无用内容,就可以采用正则表达式的方式进行过滤,比如,针对日期时间、姓名、邮箱、手机号码等无用信息,可以采用对应的正则表达式在文本内容中筛选出这些无用信息,然后,进行过滤,从而得到过滤后文本内容。
对过滤后文本内容进行分词处理,得到待处理文本的初始文本词,比如,可以对过滤后文本内容中的句子进行切分,从而得到待处理文本的初始文本词,切分的方式可以有多种,比如,可以采用二元词模型对句子进行切分,还可以采用其他分词模型或算法对文本内容中的句子进行切分,得到的待处理文本的初始文本词,初始文本词中可以包括地名和机构名等,而能够表达待处理文本的主题大多是这种命名实体。识别初始文本词的词性,比如,可以采用词性识别模型对初始文本词的词性进行标注,标注的词性可以包括名词、动词和形容词等,具体的词性识别模型可以为基于隐马科夫模型(HMM)或者其他模型,以基于隐马科夫模型为例,识别初始文本词的方法是将每个词的可能词性看作是HMM的隐含状态,通过定义在每个隐含状态上的转移概率P(t2| t1)和发射概率P(w|t),从而识别出初始文本词的词性,所谓转移概率P(t2| t1)可以为词性(t1)与词性(t2)之间的转移概率P(t2|t1),发射概率P(w|t)可以为该词性t下,属于该词w的概率。根据初始文本词的词性,对初始文本词进行调整,得到文本词集合,比如,可以基于每一初始文本词的转移概率P(t2| t1)和发射概率P(w|t),对初始文本词进行优化,具体的优化可以为基于标注的词性,以及词性对应的转移概率和发射概率,对初始文本词中分词标记进行调整,基于调整后的分词标记,对初始文本词中词与词的组合进行调整,从而得到文本词集合,优化的算法可以有多种,比如,可以包括Vertbi(维特比分词算法)或其他分词优化算法,得到文本词集合。基于初始文本词的词性,确定文本词集合中每一文本词对应的词性,比如,将初始文本词与文本集合中的文本词进行对比,得到需要调整的待处理文本词,然后,对待处理文本词的词性进行标注,标注模型可以为HMM或者其他标注模型,得到待处理文本词对应的词性,基于待处理文本词对应的词性,对初始文本词的词性进行更新,从而得到文本词集合中每一文本词对应的词性。
102、根据文本词的词性,在文本词集合中筛选出待处理文本中用于分类的目标文本词和机构名实体。
其中,机构名实体用于指示待处理文本中出现的机构名称,比如,机构名实体可以为派出所、公安部门、名称部门或者某个具体的机构的名称。
例如,获取文本词集合中所有文本词的文本属性信息,根据文本词的词性和文本属性信息,在文本词集合中筛选出待处理文本中用于分类的目标文本词,基于预设实体识别策略,在文本词集合中识别出机构名实体,具体可以如下:
S1、获取文本词集合中所有文本词的文本属性信息。
其中,文本属性信息可以包括文本词在待处理文本的文本内容中出现的次数、出现的位置以及该文本词的上下文等信息。
例如,在待处理文本的文本内容中识别出每一文本词的位置,得到文本词的位置信息,基于该位置信息,在文本内容中识别出每一文本词的上下文信息,该上下文信息可以为文本词在待处理文本中的上下文的相关信息,比如,可以为该文本词的上下文所包含的文本词的数量和文本词的内容等信息。还可以在文本词集合中统计出每一文本词在待处理文本中出现的次数,得到文本词数量信息,将位置信息、上下文信息和文本词数量信息等作为文本词的文本属性信息。
S2、根据文本词的词性和文本属性信息,在文本词集合中筛选出待处理文本中用于分类的目标文本词。
例如,可以根据文本词的词性,在文本词集合中筛选出待处理文本的主题词,基于文本属性信息,在文本词集合中提取出待处理文本中的关键词,并将主题词和关键词作为用于分类的目标文本词,具体可以如下:
(1)根据文本词的词性,在文本词集合中筛选出待处理文本的主题词。
其中,主题词为表征待处理文本主题的词,该主题词可以为表征待处理文本整体主题的词,也可以为表征待处理文本中不同文本区域的主题的词。
例如,根据预设领域词典,对文本词集合中的文本词进行分类,得到文本词集合中每一文本词的词类型,比如,该预设领域词典可以为处理待处理文本的各个部门类别的领域词典,用于比较不同类别之间的频率差异,根据预设领域词典,在文本词集合中识别出在某个类别中的频率较高,在其他类别中频率较低的文本词,将这一类文本词作为领域词,当该文本词在各个类别中频率变化差异较小,将这一类文本词作为无关词,将文本词中除了领域词和无关词以外的词作为普通词,从而得到文本词集合中每一文本词的词类型,因此,词类型可以包括领域词、普通词和无关词等类型。
获取词类型对应的初始主题权重,比如,可以对不同词类型对应的初始主题权重进行赋值,譬如,无关词的初始主题权重可以为0,普通词对应的初始主题权重可以根据该普通词在标准库中不同类别的文本中的词频来确定,比如,可以将普通词在标准库的所有类别文本中出现的频率、普通词在标准库所有类别文本中出现的文档频率中最大的文本频率和普通词在标准库所有类别文本中出现的文本频率进行融合,从而得到普通词对应的初始主题权重,具体可以参考公式(1)所示:
Figure 289654DEST_PATH_IMAGE001
(1)
其中,
Figure 800270DEST_PATH_IMAGE002
为普通词对应的初始主题权重,
Figure DEST_PATH_IMAGE003
为普通词在标准库的所有类别文 本中出现的频率,
Figure 143789DEST_PATH_IMAGE004
为普通词在标准库所有类别文本中出现的文档频率中最大的 文本频率,
Figure DEST_PATH_IMAGE005
为普通词在标准库所有类别文本中出现的文本频率。
基于普通词对应的初始主题权重,确定领域词对应的初始主题权重,比如,在普通词对应的初始主题权重中筛选出最大的初始主题权重,将领域词在标准库的所有类别文本中出现的频率、领域词在标准库所有类别文本中出现的文档频率中最大的文本频率和领域词在标准库所有类别文本中出现的文本频率进行融合,将融合后的初始主题权重和普通词对应的最大的初始主题权重相加,从而得到领域词对应的初始主题权重,具体可以参考公式(2)所示:
Figure 866894DEST_PATH_IMAGE006
(2)
其中,
Figure DEST_PATH_IMAGE007
为领域词对应的初始主题权重,
Figure 884529DEST_PATH_IMAGE008
为普通词对应的最大的初 始主题权重,
Figure DEST_PATH_IMAGE009
为领域词在标准库的所有类别文本中出现的频率,
Figure 34887DEST_PATH_IMAGE010
为领域词在 标准库所有类别文本中出现的文档频率中最大的文本频率,
Figure DEST_PATH_IMAGE011
为领域词在标准库所有类 别文本中出现的文本频率。
获取词性对应的权重调整参数,比如,在词性中筛选出需要权重调整的目标词性, 譬如,只有当词性为专用名词和名词时,才需要对专用名词和名词对应的文本词的初始主 题权重进行调整,因此,在词性中筛选出专有名词和名称。获取目标词性对应的权重调整参 数,比如,可以获取专有名词对应的权重调整参数
Figure 364237DEST_PATH_IMAGE012
和名词对应的权重调整参数
Figure DEST_PATH_IMAGE013
。基于权重调整参数,对文本词的初始主题权重进行调整,得到文本词集合中每 一文本词对应的主题权重,比如,当文本词为名词时,就可以将文本词的初始主题权重乘以 名词对应的权重调整参数,从而就可以得到该文本词的主题权重,当文本词为专有名词是, 就可以将文本词的初始主题权重乘以专有名词对应的权重调整参数,从而就可以得到该文 本词的主题权重,当文本词不属于名词和专用名词时,将该文本词的初始主题权重作为主 题权重,具体的主题权重计算可以参考公式(3)所示:
Figure 392498DEST_PATH_IMAGE014
(3)
其中,
Figure DEST_PATH_IMAGE015
为文本词对应的主题权重,
Figure 389273DEST_PATH_IMAGE016
可以为文本词对应的初始主题 权重,可以包括
Figure DEST_PATH_IMAGE017
Figure 444954DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
为专有名词对应的权重调整参数,
Figure 402546DEST_PATH_IMAGE020
可 以为名词对应的权重调整参数。
根据主题权重,在文本词集合中筛选出待处理文本的主题词,比如,可以根据主题权重,对文本词集合中每一文本词进行排序,根据排序结果,获取每个类别预设排名范围的文本词作为待处理文本的主题词,预设排名范围可以为前一、前三或其他靠前的范围等排名范围。
(2)基于所述文本属性信息,在文本词集合中提取出待处理文本中的关键词,并将主题词和关键词作为用于分类的目标文本词。
其中,关键词为区别所述待处理文本类别的词。
例如,可以对待处理文本进行文本区域划分,并在文本词集合中筛选出每一文本区域对应的候选文本词,比如,可以将待处理文本划分为若干个小的文本区域,划分的方法可以有多种,譬如,可以将每一个句子划分为一个文本区域,也可以将一个或多个自然段划分为一个文本区域,还可以根据待处理文本中的一级标题、二级标题或三级标题进行文本区域划分,从而得到待处理文本的多个文本区域,在文本词集合中筛选出每一个文本区域内包含的文本词,从而得到每一文本区域对应的候选文本词。
根据文本属性信息,统计候选文本词在待处理文本中的词频信息,这里的词频信息可以包括候选文本词的词频(IF)和逆文档频率(IDF),其中,词频(IF)可以为候选文本词在某个文本区域内出现的次数与该文本区域内的总词数的比值,逆文档频率(IDF)可以为待处理文本中文本区域的总数与该候选文本词在其他文本区域出现的次数之间比值的对数,比如,根据文本属性信息,可以统计每一个候选文本词在每个文本区域内出现的次数,还可以统计每个一个文本区域内的文本词的总数,基于候选文本词在文本区域内出现的次数和文本词的总数,分别计算该候选文本词的词频(IF)和逆文档频率(IDF),具体可以参考公式(4)和公式(5)所示:
Figure DEST_PATH_IMAGE021
(4)
Figure 467454DEST_PATH_IMAGE022
(5)
基于词频信息,在文本词集合中提取出待处理文本中的关键词,比如,将词频信息中的词频(IF)和逆文档频率(IDF)进行融合,从而得到候选文本词的分类权重,具体融合过程可以参考公式(6)所示:
Figure DEST_PATH_IMAGE023
(6)
其中,
Figure 548761DEST_PATH_IMAGE024
为候选文本词的分类权重。
对候选文本词的分类权重进行排序,基于排序结果,在文本词集合中筛选出待处理文本中的关键词,比如,根据排序结果,在文本词集合中筛选出预设排名范围的文本词作为关键词,该预设排名范围可以根据实际应用来设定,比如,可以为前一、前五或者任意一个排名范围。将主题词和关键词作为用于分类的目标文本词。
S3、基于预设实体识别策略,在文本词集合中识别出机构名实体。
例如,根据预设实体识别策略,在文本词集合中识别出实体,得到实体集合,比如,采用多种实体识别算法或者实体识别工具,在文本词集合中识别出地名、机构名和其他未被过滤的实体,实体识别工具可以采用实体识别NER工具等进行实体识别,从而得到实体集合。确定实体集合中每一实体的实体类型,比如,可以采用实体识别工具识别出实体集合中实体的实体类型,基于该实体类型,在实体集合中筛选出机构名实体,比如,在实体集合中筛选出实体类型为机构名的实体,从而得到机构名实体。
103、基于机构名实体和目标文本词,将文本词集合转换为文本信息。
其中,文本信息可以为文本词集合中文本词对应的词向量等信息。
其中,目标文本词可以为文本词集合中用于分类的文本词,具体可以包括文本词集合中的主题词和关键词。
例如,将文本词集合中每一文本词转换为初始文本信息,比如,可以采用词向量模型将文本词集合中每一文本词转换为词向量,得到文本词集合对应的初始文本信息,词向量模型可以有多种,比如,可以为利用Word2vec训练得到词向量模型或者其他算法训练得到的词向量模型。
基于机构名实体和目标文本词,对初始文本信息进行加权,得到文本信息,比如, 获取机构名实体和目标文本词对应的文本权重,譬如,可以从预设文本权重集合中筛选出 机构名实体对应的文本权重
Figure DEST_PATH_IMAGE025
、主题词对应的文本权重
Figure 306502DEST_PATH_IMAGE026
和关键词对应 的文本权重
Figure DEST_PATH_IMAGE027
。根据文本权重,确定文本词集合中每一文本词对应的目标文 本权重,比如,当文本词集合中的文本词属于机构名实体或目标实体文本词时,将机构名实 体或者目标文本词对应的文本权重作为文本集合中文本词对应的目标文本权重,譬如,当 文本词集合中的文本词属于主题词、关键词和机构名实体三种特征词中的任意一个时,其 目标文本权重为对应的特征词的文本权重,当文本词集合中的文本词属于主题词和关键词 时,也就是文本词属于目标文本词时,则该文本词的目标文本权重就可以为目标文本词中 主题词和关键词两者中的最大的文本权重。当文本词集合中的文本词属于机构名实体和目 标文本词时,在文本权重中筛选出最大的文本权重作为文本词集合中的文本词对应的目标 文本权重,譬如,当文本词集合中的文本词属于机构名实体、主题词和关键词时,在三个特 征词对应的文本权重中筛选出最大的文本权重作为目标文本权重,当文本词集合中的文本 词属于机构名实体和目标文本词中任一个特征词时,就可以在机构名实体和目标文本词对 应的文本权重中筛选出最大的文本权重作为目标文本权重。当文本词集合中的文本词不属 于机构名实体和目标文本词时,在文本权重中筛选出最小的文本权重作为文本词集合中的 文本词对应的目标文本权重,比如,当文本词集合中的文本词即不属于机构名实体、也不属 于主题词和关键词时,就可以在机构名实体对应的文本权重
Figure 876023DEST_PATH_IMAGE028
、主题词对应的文 本权重
Figure DEST_PATH_IMAGE029
和关键词对应的文本权重
Figure 213464DEST_PATH_IMAGE030
中筛选出最小的文本权重 作为目标文本权重,可以参考如下公式(7)所示:
Figure DEST_PATH_IMAGE031
(7)
其中,
Figure 60197DEST_PATH_IMAGE032
为文本词集合中文本词的目标文本权重,
Figure DEST_PATH_IMAGE033
为主题词对 应的文本权重,
Figure 224724DEST_PATH_IMAGE034
为关键词对应的文本权重,
Figure DEST_PATH_IMAGE035
为机构名实体对应 的文本权重。
基于目标文本权重,对初始文本信息进行加权,得到文本信息,比如,可以根据文本词集合中每一文本词对应的目标文本权重,对文本词的词向量进行加权,从而就可以得到文本词的加权向量化编码,将文本词的加权向量化编码作为文本词集合对应的文本信息。
104、对文本信息进行特征提取,得到待处理文本的文本特征。
例如,对文本词集合中每一文本词进行独热编码,得到文本词编码,比如,可以采用Word2Vec的训练语料中构建词索引字典,以对文本词进行独热(One Hot)编码,从而得到文本词编码。将文本词编码与文本信息进行融合,得到融合后文本信息,比如,可以通过训练后处理模型的词嵌入层将文本词编码与文本信息相融合,从而得到融合后文本信息,融合后文本信息可以为待处理文本中每一行或每一个句子的加权词向量矩阵,具体的融合方式可以为将文本词集合中的文本词向量转换为词向量矩阵,在文本词集合中筛选出每个句子对应的基础文本词,将基础文本词转换为文本词编码,使得句子的每一行被转换为一个矩阵,矩阵的每一行都为文本词编码表示。将转换后的文本词编码与加权词向量矩阵进行矩阵乘法,从而可以得到句子的加权词向量矩阵,将句子的加权词向量矩阵作为融合后文本信息,具体可以如图3所示。
对融合后文本信息进行特征提取,得到待处理文本的文本特征,比如,可以采用训练后处理模型的特征提取子模型对句子的加权词向量矩阵进行多维度的特征提取,从而得到待处理文本的文本特征,特征提取模型可以为Bi-LSTM(双向长短时记忆网络)或者其他特征提取网络。
可选的,该训练后处理模型除了可以由运维人员预先进行设置之外,也可以由文本处理装置自行训练来得到,即步骤“采用训练后处理模型将文本词编码与文本信息进行融合,得到融合后文本信息”之前,该文本处理方法还可以包括:
构建文本样本集合,该文本样本集合中包括已标注分配路径的文本,采用预设处理模型对文本样本集合中文本样本的分配路径进行预测,得到预测分配路径,根据预测分配路径与标注分配路径对预设处理模型进行收敛,得到训练后处理模型,具体可以如下:
(1)构建文本样本集合。
其中,文本样本集合中可以包括已标注分配路径的文本。
例如,获取处理文本的不同类型业务节点中对应的一批已分配、正在处理或已处理的文本,得到文本样本,构建<分配路径,文本样本>的文本标准数据库,分配路径或者分配路径对应的处理节点类型以类别id标记,比如,可以为0、1、2…等,每个分配路径的正样本为该分配路径对应的文本样本,负样本为其他分配路径对应的文本样本,将文本标准数据库可以作为文本样本集合,该文本样本集合具体可以表(1)所示:
表(1)
Figure 281542DEST_PATH_IMAGE036
其中,同一分配路径的文本样本存在关联性和相似性,即同一分配路径的文本样本的文本特征时相似,因此,就可以基于该文本样本集合构建基于<分配路径,待处理文本>的相似度计算模型,该相似度计算模型就可以为训练后处理模型。
(2)采用预设处理模型对文本样本集合中文本样本的分配路径进行预测,得到预测分配路径。
其中,预设处理模型包括预设的特征提取子模型和预设的分类子模型。
例如,采用特征提取子模型对文本样本集合中的文本样本进行特征提取,得到目标文本特征,比如,可以采用预设处理模型中的Bi-LSTM网络对文本样本集合中文本样本进行特征提取,得到目标文本特征。采用分类子模型对目标文本特征进行分类,得到文本样本集合中文本样本的文本类型,比如,可以采用am-softmax的多分类模型对目标文本特征进行分类,从而得到文本样本集合中文本样本的文本类型。根据文本样本集合中文本样本的文本类型,确定预测分配路径,比如,根据文本样本的文本类型,在文本样本集合中筛选出该文本类型对应的分配路径,将该分配路径作为预测分配路径。
其中,采用训练后处理模型预测文本样本的分配路径的具体过程可以看作首先通过词嵌入层对文本样本的文本内容进行处理,比如,将文本内容转换为文本内容中每个句子对应的加权词向量矩阵,将句子对应的加权词向量矩阵输入至LSTM网络中,LSTM网络的数量可以有一个或多个,下面以两个为例,将句子对应的加权词向量矩阵输入至两个LSTM网络中,两个LSTM网络对加权词向量矩阵进行处理,将处理后的特征输入concat(融合层)进行融合,采用全连接层(FC)对融合后的特征信息进行处理,将处理后的特征信息(编码后的特征)输入至am-softmax网络进行分类处理,得到文本样本的文本类型,具体可以如图4所示,根据文本样本的文本类型,确定该文本样本的预测分配路径,因此,对于预设处理模型预测文本样本的分配路径整体上可以看作是由Bi-LSTM网络和am-softmax网络共同完成的,具体的步骤可以参考公式(8)和(9)所示:
Figure DEST_PATH_IMAGE037
(8)
Figure 422673DEST_PATH_IMAGE038
(9)
其中,x为加权词向量,y为Bi-LSTM网络的输出,即编码后的特征,W为对应的类别 集合,即
Figure DEST_PATH_IMAGE039
,即
Figure 248547DEST_PATH_IMAGE040
(3)根据预测分配路径与标注路径对预设处理模型进行收敛,得到训练后处理模型。
例如,根据预测分配路径与标注路径,确定文本样本的损失信息,比如,可以采用 多种损失函数来确定文本样本的损失信息,该损失函数可以为
Figure DEST_PATH_IMAGE041
网络的损失函 数,也可以为am-softmax网络的损失函数,下面以am-softmax网络的损失函数为例,确定文 本样本的损失信息,该损失函数可以如公式(10)所示:
Figure 223456DEST_PATH_IMAGE042
(10)
其中,
Figure DEST_PATH_IMAGE043
为文本样本的损失信息,
Figure 737876DEST_PATH_IMAGE044
为Bi-LSTM网络的输出y与文本类别
Figure DEST_PATH_IMAGE045
之间的夹角。s和m为固定参数,可以根据实际应用来设定,比如,s可以为30,m可以为 0.35。
基于该损失信息对预设处理模型的网络参数进行更新,比如,可以通过最小化该文本样本的损失信息来更新预设处理模型的网络参数,还可以采用梯度下降算法来根据损失信息更新预设处理模型的网络参数,从而完成对预设处理模型的收敛,得到训练后处理模型。
105、根据文本特征确定待处理文本的分配路径,并基于分配路径分配待处理文本。
其中,分配路径可以为待处理文本即将流向或分配的处理节点,该处理节点的数量可以为一个或多个,分配层级可以为一层或多层,比如,以待处理文本为电子公文为例,该分配路径就可以为电子公文对应的处理部门的信息,譬如,以电子公文为公安类公文,则该电子公文的分配路径就可以为公安部门。
例如,分别计算文本特征与文本样本集合中每一文本样的预设文本特征之间的文本相似度,比如,可以采用预设处理模型计算待处理文本的文本特征与文本样本集合中每一文本样本的预设文本特征之间的文本相似度。根据文本相似度,在文本样本集合中提取出与待处理文本相似的至少一个候选文本样本,比如,根据文本相似度,对文本样本集合中的文本样本进行排序,基于排序结果,在文本样本集合中筛选出预设排序范围内的文本样本,从而得到至少一个候选文本样本,该预设排序范围可以根据实际应该进行设定,比如,可以为前一、前三、前十或者其他预设排序范围,当预设排序范围为前一时,就可以将文本样本集合中与待处理文本的文本特征相似度最高的文本样本作为候选文本样本,当预设排序范围为前三时,就可以在文本样本集合中筛选出与待处理文本的文本特征相似度前三高的文本样本作为候选文本样本,以此类推。在候选文本样本的分配路径筛选待处理文本的分配路径,比如,获取候选文本样本的分配路径,当候选文本样本的数量为一个时,则就可以将该候选文本样本的分配路径作为待处理文本的分配路径。当候选文本样本的数量为多个时,还可以以少数服从多数的原则,确定待处理文本的分配路径,比如,当候选文本样本的数量为5个且候选文本样本的分配路径为3个A部门和2个B部门时,在候选文本样本的分配路径中筛选出数量最多的分配路径作为待处理文本的分配路径,则可以确定待处理文本的分配路径为A部门。当候选文本样本的数量为多个时,还可以根据排序结果对分配路径进行加权,基于加权结果来确定待处理文本的分配路径,比如,根据排序结果,获取每一个排名对应的分配权重,其中,排名越高相对对应的分配权重也越高,根据分配权重,对候选文本样本的分配路径进行加权,从而可以得到每一个分配路径对应的目标分配权重,在分配路径中筛选出目标分配权重最大的分配路径作为待处理文本的分配路径。
基于分配路径分配待处理文本,比如,在分配路径中识别出待处理文本即将流向的目标处理节点,譬如,当分配路径中只包含一个处理节点时,将该处理节点作为待处理文本即将流向的目标处理节点,当分配路径中包含多个处理节点时,获取处理节点之间的层级关系或者连接关系,比如,当分配路径中包含A处理节点和B处理节点,且待处理文本的流向为串行,且串行方向为A处理节点至B处理节点,就可以确定处理节点之间的层级或连接关系为A处理节点-B处理节点,即待处理文本首先流向A处理节点,然后,A处理节点处理完成之后,再流向B处理节点。当分配路径中包含A处理节点和B处理节点,且待处理文本的流向为并行时,就可以确定处理节点之间的层级关系为无层级关系,且连接关系为并行,即待处理文本可以同时流向处理节点A和处理节点B等。将待处理文本分配至目标处理节点,使得目标处理节点对待处理文本进行处理,比如,当目标处理节点为一个时,直接将待处理文本分配至该目标处理节点,以便目标处理节点对待处理文本信息进行处理,目标处理节点处理完成之后可以将待处理文本的处理结果返回至文本处理装置,也可以直接将处理后文本发送至目标处理节点的下一个处理节点进行处理,当目标处理节点为多个时,将待处理文本同时分配至多个目标处理节点,使得目标处理节点对待处理文本进行处理。当分配路径中存在多个层级的处理节点时,可以将待处理文本和分配路径发送至目标处理节点,目标处理节点可以对待处理文本进行处理,并将处理后文本返回至文本处理装置或者分配路径中目标处理节点的下一个层级的处理节点。当目标处理节点将处理后文本返回至文本处理装置时,文本处理装置可以将处理后文本发送至分配路径中目标处理节点的一下个层级的处理节点,依次类推,直到将待处理文本分配至分配路径中所有处理节点位置。
可选的,在一实施例中,该文本处理装置还包括确定的待处理文本的分配路径存储至区块链上。
由以上可知,本申请实施例在获取待处理文本后,并对待处理文本的文本内容进行识别,得到待处理文本的文本词集合和文本词集合中每一文本词对应的词性,然后,根据文本词的词性,在文本词集合中筛选出待处理文本中用于分类的目标文本词和机构名实体,该机构名实体用于指示待处理文本中出现的机构名称,然后,基于机构名实体和目标文本词,将文本词集合转换为文本信息,对文本信息进行特征提取,得到待处理文本的文本特征,然后,根据文本特征确定待处理文本的分配路径,并基于分配路径分配待处理文本;由于该方案融合了待处理文本中用于分类的目标文本词和机构名实体等准确全面的待处理文本的文本特征,从而可以基于文本特征,对待处理文本进行分配,因此,可以提升文本处理的准确性。
根据上面实施例所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该文本处理装置具体集成在电子设备,电子设备为服务器,待处理文本为待处理公文,分配路径为分配部门为例进行说明。
(一)服务器对处理模型的训练
1、构建电子公文样本集合。
例如,获取不同公文处理部门中对应的一批已分配、正在处理或已处理的公文,得到公文样本,构建<分配部门,公文样本>的公文分配标准数据库,每个分配部门的正样本为该部门的公文信息,负样本为其他部门的公文信息。构建的公文分配标准数据库<分配部门,公文文本样本>的示例可以如表2所示:
表2
分配部门 公文样本
市公安局 债主携款潜逃。【已建议市民拨打公安110,市民理解】
市公安局 小李以投资酒吧为由,要求我押款3000万,每月返还利息,后以各种理由拒绝返款,联系报案,请求帮助
市公安局 我是XXX街新春花园13栋的居民,小区经常有外来车辆停靠,并且小区最近出现电瓶车电瓶被盗的案件,物业一直也没有解决此事,希望有关部门核查。
市教育局 我在中小学教师网报名考试,但是报名后显示的信息有误,市教育局的电话一直无人接听,我要求半个小时内回复。
市教育局 经济技术开发区教育局规定全区小学六年级调考,学校不得公布学生成绩,但是没有告知家长查询成绩的途径,我认为不合理。
市教育局 我想咨询一线医护人员的子女就近入学的问题,什么时候可以落实。
市科技局 我咨询:发明专利有什么奖励政策。专利年费可不可以自己缴纳。在哪里缴纳。
市科技局 改善现有的防护服。有科研技术,想立项
市城管委 XXX冲村里的垃圾溢出来。
市城管委 XXXX路交叉口节假日早上8点施工,噪音扰民。
市城管委 XXX中路机动车占道停车。
(2)服务器采用预设处理模型对公文样本集合中公文样本的分配部门进行预测,得到预测分配部门。
例如,服务器采用预设处理模型中的Bi-LSTM网络对公文样本集合中公文样本进行特征提取,得到目标文本特征。采用am-softmax的多分类模型对目标文本特征进行分类,从而得到公文样本集合中公文样本的公文类型。根据公文样本的公文类型,在公文样本集合中筛选出该公文类型对应的分配部门,将该分配部门作为预测分配部门。
(3)服务器根据预测分配部门与标注分配部门对预设处理模型进行收敛,得到训练后处理模型。
例如,服务器可以根据预测分配部门与标注分配部门,采用am-softmax网络的损失函数确定公文样本的损失信息,损失函数可以为公式(10)所示。通过最小化该文本样本的损失信息来更新预设处理模型的网络参数,还可以采用梯度下降算法来根据损失信息更新预设处理模型的网络参数,从而完成对预设处理模型的收敛,得到训练后处理模型。
(二)采用训练后处理模型对待处理公文进行处理。
如图5所示,一种文本处理方法,具体流程如下:
201、服务器获取待处理公文,并对待处理公文的公文内容进行识别,得到待处理公文的文本词集合和文本词集合中每一文本词对应的词性。
例如,服务器可以获取待处理公文,并对待处理公文的公文内容进行识别,得到所述待处理公文的文本词集合和文本词集合中每一文本词对应的词性,具体可以如下:
(1)获取待处理公文。
例如,用户可以通过终端将待处理公文上传至服务器,服务器还可以在网络或者数据库中爬取文本,将爬取到的文本作为待处理公文,还可以对爬取到的文本进行过滤,在爬取到的文本中筛选出需要处理的公文,从而得到待处理公文。当待处理公文较多时,还可以间接获取待处理公文,比如,用户通过终端将待处理公文进行存储,然后,触发生成公文处理请求,将存储地址添加至公文处理请求中,并将添加存储地址的公文处理请求发送至服务器,服务器在接收到公文处理请求之后,在公文处理请求中提取出存储地址,根据存储地址,获取待处理公文,在获取到待处理公文之后,还可以给用户发送提示信息,以提示用户获取到待处理公文。
(2)服务器对待处理公文的公文内容进行识别,得到待处理公文的文本词集合和文本词中每一文本词对应的词性。
例如,在待处理公文中识别出公文内容,在公文内容中筛选出停用词库中包含的内容,从而得到公文内容中的停用词,将该停用词进行过滤。针对日期时间、姓名、邮箱、手机号码等无用信息,可以采用对应的正则表达式在公文内容中筛选出这些无用信息,然后,进行过滤,从而得到过滤后公文内容。
服务器可以采用二元词模型对过滤后公文内容中的句子进行切分,得到的待处理公文的初始文本词,采用隐马科夫模型识别初始文本词对应的词性,采用Vertbi算法对初始文本词进行调整,得到文本词集合,将初始文本词与文本集合中的文本词进行对比,得到需要调整的待处理文本词,然后,对待处理文本词的词性进行标注,得到待处理文本词对应的词性,基于待处理文本词对应的词性,对初始文本词的词性进行更新,从而得到文本词集合中每一文本词对应的词性。
202、服务器获取文本词集合中所有文本词的文本属性信息。
例如,服务器在待处理公文的公文内容中识别出每一文本词的位置,得到文本词的位置信息,基于该位置信息,在公文内容中识别出每一文本词的上下文信息,还可以在文本词集合中统计出每一文本词在待处理公文中出现的次数,得到文本词数量信息,将位置信息、上下文信息和文本词数量信息等作为文本词的文本属性信息。
203、服务器根据文本词的词性和文本属性信息,在文本词集合中筛选出待处理公文中用于分类的目标文本词。
例如,服务器可以根据文本词的词性,在文本词集合中筛选出待处理公文的主题词,基于文本属性信息,在文本词集合中提取出待处理公文中的关键词,并将主题词和关键词作为用于分类的目标文本词,具体可以如下:
(1)根据文本词的词性,在文本词集合中筛选出待处理公文的主题词。
例如,服务器根据预设领域词典,在文本词集合中识别出在某个类别中的频率较高,在其他类别中频率较低的文本词,将这一类文本词作为领域词,当该文本词在各个类别中频率变化差异较小,将这一类文本词作为无关词,将文本词中除了领域词和无关词以外的词作为普通词,从而得到文本词集合中每一文本词的词类型。
服务器对不同词类型对应的初始主题权重进行赋值,比如,无关词的初始主题权重可以为0,对于普通词对应的初始主题权重来说,赋值方法可以为将普通词在标准库的所有类别文本中出现的频率、普通词在标准库所有类别文本中出现的文档频率中最大的文本频率和普通词在标准库所有类别文本中出现的文本频率进行融合,从而得到普通词对应的初始主题权重,具体可以参考公式(1)所示。对于领域词对应的初始主题权重来说,赋值方法可以为在普通词对应的初始主题权重中筛选出最大的初始主题权重,将领域词在标准库的所有类别文本中出现的频率、领域词在标准库所有类别文本中出现的文档频率中最大的文本频率和领域词在标准库所有类别文本中出现的文本频率进行融合,将融合后的初始主题权重和普通词对应的最大的初始主题权重相加,从而得到领域词对应的初始主题权重,具体可以参考公式(2)所示。
当词性为专用名词和名词时,服务器还需要对专用名词和名词对应的文本词的初 始主题权重进行调整,因此,需要获取专有名词对应的权重调整参数
Figure 948278DEST_PATH_IMAGE046
和名词对 应的权重调整参数
Figure DEST_PATH_IMAGE047
。当文本词为名词时,就可以将文本词的初始主题权重乘以 名词对应的权重调整参数,从而就可以得到该文本词的主题权重,当文本词为专有名词是, 就可以将文本词的初始主题权重乘以专有名词对应的权重调整参数,从而就可以得到该文 本词的主题权重,当文本词不属于名词和专用名词时,将该文本词的初始主题权重作为主 题权重。
根据主题权重,对文本词集合中每一文本词进行排序,根据排序结果,获取每个类别预设排名范围的文本词作为待处理公文的主题词,预设排名范围可以为前一、前三或其他靠前的范围等排名范围。
(2)基于所述文本属性信息,在文本词集合中提取出待处理公文中的关键词,并将主题词和关键词作为用于分类的目标文本词。
例如,服务器可以将待处理公文划分为若干个小的文本区域,划分的方法可以有多种,比如,可以将每一个句子划分为一个文本区域,也可以将一个或多个自然段划分为一个文本区域,还可以根据待处理公文中的一级标题、二级标题或三级标题进行文本区域划分,从而得到待处理公文的多个文本区域,在文本词集合中筛选出每一个文本区域内包含的文本词,从而得到每一文本区域对应的候选文本词。
服务器根据文本属性信息,可以统计每一个候选文本词在每个文本区域内出现的次数,还可以统计每个一个文本区域内的文本词的总数,基于候选文本词在文本区域内出现的次数和文本词的总数,分别计算该候选文本词的词频(IF)和逆文档频率(IDF),具体可以参考公式(4)和公式(5)所示。将词频信息中的词频(IF)和逆文档频率(IDF)进行融合,从而得到候选文本词的分类权重,具体融合过程可以参考公式(6)所示。
服务器根据排序结果,在文本词集合中筛选出预设排名范围的文本词作为关键词,该预设排名范围可以根据实际应用来设定,比如,可以为前一、前五或者任意一个排名范围。将主题词和关键词作为用于分类的目标文本词。
204、服务器基于预设实体识别策略,在文本词集合中识别出机构名实体。
例如,服务器可以采用实体识别NER工具在文本词集合中识别出实体,得到实体集合,并识别出实体集合中实体的实体类型。在实体集合中筛选出实体类型为机构名的实体,从而得到机构名实体。
205、服务器基于机构名实体和目标文本词,将文本词集合转换为文本信息。
例如,服务器可以利用Word2vec训练得到词向量模型将文本词集合中每一文本词 转换为词向量。从预设文本权重集合中筛选出机构名实体对应的文本权重
Figure 628658DEST_PATH_IMAGE048
、主题 词对应的文本权重
Figure DEST_PATH_IMAGE049
和关键词对应的文本权重
Figure 633523DEST_PATH_IMAGE050
。当文本词集合 中的文本词属于主题词、关键词和机构名实体三种特征词中的任意一个时,其目标文本权 重为对应的特征词的文本权重,当文本词集合中的文本词属于主题词和关键词时,也就是 文本词属于目标文本词时,则该文本词的目标文本权重就可以为目标文本词中主题词和关 键词两者中的最大的文本权重。当文本词集合中的文本词属于机构名实体、主题词和关键 词时,在三个特征词对应的文本权重中筛选出最大的文本权重作为目标文本权重,当文本 词集合中的文本词属于机构名实体和目标文本词中任一个特征词时,就可以在机构名实体 和目标文本词对应的文本权重中筛选出最大的文本权重作为目标文本权重。当文本词集合 中的文本词即不属于机构名实体、也不属于主题词和关键词时,就可以在机构名实体对应 的文本权重
Figure DEST_PATH_IMAGE051
、主题词对应的文本权重
Figure 900819DEST_PATH_IMAGE052
和关键词对应的文本权重
Figure DEST_PATH_IMAGE053
中筛选出最小的文本权重作为目标文本权重,可以参考如下公式(7)所 示。根据文本词集合中每一文本词对应的目标文本权重,对文本词的词向量进行加权,从而 就可以得到文本词的加权向量化编码,将文本词的加权向量化编码作为文本词集合对应的 文本信息。
206、服务器对文本信息进行特征提取,得到待处理公文的文本特征。
例如,服务器采用Word2Vec的训练语料中构建词索引字典,以对文本词进行独热编码,从而得到文本词编码。通过训练后处理模型的词嵌入层将文本词编码与文本信息相融合,从而得到融合后文本信息,融合后文本信息可以为待处理公文中每一行或每一个句子的加权词向量矩阵,具体的融合方式可以为将文本词集合中的文本词向量转换为词向量矩阵,在文本词集合中筛选出每个句子对应的基础文本词,将基础文本词转换为文本词编码,使得句子的每一行被转换为一个矩阵,矩阵的每一行都为文本词编码表示。将转换后的文本词编码与加权词向量矩阵进行矩阵乘法,从而可以得到句子的加权词向量矩阵。采用Bi-LSTM网络对句子的加权词向量矩阵进行多维度的特征提取,从而得到待处理公文的文本特征。
207、服务器根据文本特征确定待处理公文的分配部门,并基于分配部门分配待处理公文。
例如,服务器可以采用训练后处理模型计算待处理公文的文本特征与公文样本集合中每一文本样本的预设文本特征之间的文本相似度,根据文本相似度,对公文样本集合中的公文样本进行排序,基于排序结果,在公文样本集合中筛选出预设排序范围内的公文样本,从而得到至少一个候选公文样本,比如,当预设排序范围为前一时,就可以将公文样本集合中与待处理公文的文本特征相似度最高的公文样本作为候选公文样本,当预设排序范围为前三时,就可以在公文样本集合中筛选出与待处理公文的文本特征相似度前三高的公文样本作为候选公文样本,以此类推。
服务器获取候选公文样本的分配部门,当候选公文样本的数量为一个时,则就可以将该候选公文样本的分配部门作为待处理公文的分配部门。当候选公文样本的数量为多个时,还可以以少数服从多数的原则,确定待处理公文的分配部门,比如,当候选公文样本的数量为5个且候选公文样本的分配部门为3个A部门和2个B部门时,在候选公文样本的分配部门中筛选出数量最多的分配部门作为待处理公文的分配部门,则可以确定待处理公文的分配部门为A部门。当候选公文样本的数量为多个时,还可以根据排序结果对分配部门进行加权,基于加权结果来确定待处理公文的分配部门,比如,根据排序结果,获取每一个排名对应的分配权重,其中,排名越高相对对应的分配权重也越高,根据分配权重,对候选公文样本的分配部门进行加权,从而可以得到每一个分配部门对应的目标分配权重,在分配部门中筛选出目标分配权重最大的分配部门作为待处理公文的分配部门。
当分配部门的数量为一个时,直接将待处理公文分配至分配部门,使得分配部门对待处理公文进行处理;当分配部门的数量为多个时,还可以识别出分配部门的分配顺序,比如,可以根据分配部门之间的层级关系或连接关系,确定分配部门的分配顺序,譬如,当多个分配部门的层级关系或连接为并行关系时,就可以确定分配部门的分配顺序为同时分配,此时,就可以将待处理公文同时分配至所有的分配部门,还可以接收各个分配部门针对待处理公文的处理信息或者处理后公文。当多个分配部门的层级关系或连接关系为串行关系时,识别出每个分配部门在串行关系中的位置信息,该位置信息用于指示分配部门在串行关系中所处的位置,也可以理解为指示分配部门可以第几个获取到待处理公文,在位置信息中识别出处于串行关系的第一位的分配部门,将该分配部门作为待处理公文即将流向的目标分配部门,将待处理公文分配至目标分配部门,使得目标分配部门对待处理公文进行处理,还可以将位置信息发送至目标分配部门对应的终端,使得目标分配部门根据位置信息,将处理后公文和位置信息发送至下一个分配部门,以便下一个分配部门对处理后公文进行继续处理,直至所有的分配部门处理完该待处理公文。每个分配部门在处理完待处理公文之后,还可以向服务器发送处理后公文,服务器也可以根据位置信息,将处理后公文发送至下一个分配部门进行处理。
其中,对待处理公文进行处理基本可以分为5个步骤,第一步是构建公文分配标准数据库<分配部门,公文样本>,第二步就是基于该公文分配标准数据库搭建BI-LSTM 和am-softmax的处理模型训练公文的文本特征相似度。第三步就是对待处理公文的公文内容进行预处理、分词和词性标注,第四步就是抽取公文的主题词、关键词和机构名实体,特征向量化编码,第五步就是预测公文所属的办理部门标签自动分配,具体可以如图6所示。
由以上可知,本申请实施例服务器在获取待处理文本后,并对待处理文本的文本内容进行识别,得到待处理文本的文本词集合和文本词集合中每一文本词对应的词性,然后,根据文本词的词性,在文本词集合中筛选出待处理文本中用于分类的目标文本词和机构名实体,该机构名实体用于指示待处理文本中出现的机构名称,然后,基于机构名实体和目标文本词,将文本词集合转换为文本信息,对文本信息进行特征提取,得到待处理文本的文本特征,然后,根据文本特征确定待处理文本的分配路径,并基于分配路径分配待处理文本;由于该方案融合了待处理文本中用于分类的目标文本词和机构名实体等准确全面的待处理文本的文本特征,从而可以基于文本特征,对待处理文本进行分配,因此,可以提升文本处理的准确性。
为了更好地实施以上方法,本发明实施例还提供一种文本处理装置,该文本处理装置可以集成在电子设备,比如服务器或终端等设备中,该终端可以包括平板电脑、笔记本电脑和/或个人计算机等。
例如,如图7所示,该文本处理装置可以包括获取单元301、筛选单元302、转换单元303、提取单元304和处理单元305,如下:
(1)获取单元301;
获取单元301,用于获取待处理文本,并对待处理文本的文本内容进行识别,得到待处理文本的文本词集合和所述文本词集合中每一文本词对应的词性。
例如,获取单元301,具体可以用于直接或间接获取待处理文本,对待处理文本的文本内容进行过滤,得到过滤后文本内容,对过滤后文本内容进行分词处理,得到待处理文本的初始文本词,识别初始文本词的词性,根据初始文本词的词性,对初始文本词进行调整,得到文本词集合,基于初始文本词的词性,确定文本词集合中每一文本词对应的词性。
(2)筛选单元302;
筛选单元302,用于根据文本词的词性,在文本词集合中筛选出待处理文本中用于分类的目标文本词和机构名实体,该机构名实体用于指示待处理文本中出现的机构名称。
例如,筛选单元302,具体可以用于获取文本词集合中所有文本词的文本属性信息,根据文本词的词性和文本属性信息,在文本词集合中筛选出待处理文本中用于分类的目标文本词,基于预设实体识别策略,在文本词集合中识别出机构名实体。
(3)转接单元303;
转换单元303,用于基于机构名实体和目标文本词,将文本词集合转换为文本信息。
例如,转换单元303,具体可以用于将文本词集合中每一文本词转换为初始文本信息,获取机构名实体和目标文本词对应的文本权重,根据文本权重,确定文本词集合中每一文本词对应的目标文本权重,基于目标文本权重,对初始文本信息进行加权,得到文本信息。
(4)提取单元304;
提取单元304,用于对文本信息进行特征提取,得到待处理文本的文本特征。
例如,提取单元304,具体可以用于对文本词集合中每一文本词进行独热编码,得到文本词编码,将文本词编码与文本信息进行融合,得到融合后文本信息,对融合后文本信息进行特征提取,得到待处理文本的文本特征。
(5)处理单元305;
处理单元305,用于根据文本特征确定待处理文本的分配路径,并基于分配路径分配待处理文本。
例如,处理单元305,具体可以用于分别计算文本特征与文本样本集合中每一文本样的预设文本特征之间的文本相似度,根据文本相似度,在文本样本集合中提取出与待处理文本相似的至少一个候选文本样本,在候选文本样本的分配路径筛选待处理文本的分配路径,并基于分配路径分配待处理文本。
可选的,在一些实施例中,文本处理装置还可以包括训练单元306,如图8所示,具体可以如下:
训练单元306,用于对预设处理模型进行训练,得到训练后处理模型。
例如,训练单元306,具体可以用于构建文本样本集合,该文本样本集合中包括已标注分配路径的文本,采用预设处理模型对文本样本集合中文本样本的分配路径进行预测,得到预测分配路径,根据预测分配路径与标注分配路径对预设处理模型进行收敛,得到训练后处理模型。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由以上可知,本申请实施例在在获取待处理文本后,并对待处理文本的文本内容进行识别,得到待处理文本的文本词集合和文本词集合中每一文本词对应的词性,然后,根据文本词的词性,在文本词集合中筛选出待处理文本中用于分类的目标文本词和机构名实体,该机构名实体用于指示待处理文本中出现的机构名称,然后,基于机构名实体和目标文本词,将文本词集合转换为文本信息,对文本信息进行特征提取,得到待处理文本的文本特征,然后,根据文本特征确定待处理文本的分配路径,并基于分配路径分配待处理文本;由于该方案融合了待处理文本中用于分类的目标文本词和机构名实体等准确全面的待处理文本的文本特征,从而可以基于文本特征,对待处理文本进行分配,因此,可以提升文本处理的准确性。
本发明实施例还提供一种电子设备,如图9所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图9中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待处理文本,并对待处理文本的文本内容进行识别,得到待处理文本的文本词集合和文本词集合中每一文本词对应的词性,根据文本词的词性,在文本词集合中筛选出待处理文本中用于分类的目标文本词和机构名实体,该机构名实体用于指示待处理文本中出现的机构名称,基于机构名实体和目标文本词,将文本词集合转换为文本信息,对文本信息进行特征提取,得到待处理文本的文本特征,根据文本特征确定待处理文本的分配路径,并基于分配路径分配待处理文本。
例如,直接或间接获取待处理文本,对待处理文本的文本内容进行过滤,得到过滤后文本内容,对过滤后文本内容进行分词处理,得到待处理文本的初始文本词,识别初始文本词的词性,根据初始文本词的词性,对初始文本词进行调整,得到文本词集合,基于初始文本词的词性,确定文本词集合中每一文本词对应的词性。获取文本词集合中所有文本词的文本属性信息,根据文本词的词性和文本属性信息,在文本词集合中筛选出待处理文本中用于分类的目标文本词,基于预设实体识别策略,在文本词集合中识别出机构名实体。将文本词集合中每一文本词转换为初始文本信息,获取机构名实体和目标文本词对应的文本权重,根据文本权重,确定文本词集合中每一文本词对应的目标文本权重,基于目标文本权重,对初始文本信息进行加权,得到文本信息。对文本词集合中每一文本词进行独热编码,得到文本词编码,将文本词编码与文本信息进行融合,得到融合后文本信息,对融合后文本信息进行特征提取,得到待处理文本的文本特征。分别计算文本特征与文本样本集合中每一文本样的预设文本特征之间的文本相似度,根据文本相似度,在文本样本集合中提取出与待处理文本相似的至少一个候选文本样本,在候选文本样本的分配路径筛选待处理文本的分配路径,并基于分配路径分配待处理文本。
以上各个操作的具体实施可参见前面的实施例,在此不作赘述。
由以上可知,本申请实施例在获取待处理文本后,并对待处理文本的文本内容进行识别,得到待处理文本的文本词集合和文本词集合中每一文本词对应的词性,然后,根据文本词的词性,在文本词集合中筛选出待处理文本中用于分类的目标文本词和机构名实体,该机构名实体用于指示待处理文本中出现的机构名称,然后,基于机构名实体和目标文本词,将文本词集合转换为文本信息,对文本信息进行特征提取,得到待处理文本的文本特征,然后,根据文本特征确定待处理文本的分配路径,并基于分配路径分配待处理文本;由于该方案融合了待处理文本中用于分类的目标文本词和机构名实体等准确全面的待处理文本的文本特征,从而可以基于文本特征,对待处理文本进行分配,因此,可以提升文本处理的准确性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种文本处理方法中的步骤。例如,该指令可以执行如下步骤:
获取待处理文本,并对待处理文本的文本内容进行识别,得到待处理文本的文本词集合和文本词集合中每一文本词对应的词性,根据文本词的词性,在文本词集合中筛选出待处理文本中用于分类的目标文本词和机构名实体,该机构名实体用于指示待处理文本中出现的机构名称,基于机构名实体和目标文本词,将文本词集合转换为文本信息,对文本信息进行特征提取,得到待处理文本的文本特征,根据文本特征确定待处理文本的分配路径,并基于分配路径分配待处理文本。
例如,直接或间接获取待处理文本,对待处理文本的文本内容进行过滤,得到过滤后文本内容,对过滤后文本内容进行分词处理,得到待处理文本的初始文本词,识别初始文本词的词性,根据初始文本词的词性,对初始文本词进行调整,得到文本词集合,基于初始文本词的词性,确定文本词集合中每一文本词对应的词性。获取文本词集合中所有文本词的文本属性信息,根据文本词的词性和文本属性信息,在文本词集合中筛选出待处理文本中用于分类的目标文本词,基于预设实体识别策略,在文本词集合中识别出机构名实体。将文本词集合中每一文本词转换为初始文本信息,获取机构名实体和目标文本词对应的文本权重,根据文本权重,确定文本词集合中每一文本词对应的目标文本权重,基于目标文本权重,对初始文本信息进行加权,得到文本信息。对文本词集合中每一文本词进行独热编码,得到文本词编码,将文本词编码与文本信息进行融合,得到融合后文本信息,对融合后文本信息进行特征提取,得到待处理文本的文本特征。分别计算文本特征与文本样本集合中每一文本样的预设文本特征之间的文本相似度,根据文本相似度,在文本样本集合中提取出与待处理文本相似的至少一个候选文本样本,在候选文本样本的分配路径筛选待处理文本的分配路径,并基于分配路径分配待处理文本。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本发明实施例所提供的任一种文本处理方法中的步骤,因此,可以实现本发明实施例所提供的任一种文本处理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本处理方面或者文本分配方面的各种可选实现方式中提供的方法。
以上对本发明实施例所提供的一种文本处理方法、装置和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (15)

1.一种文本处理方法,其特征在于,包括:
获取待处理文本,并对所述待处理文本的文本内容进行识别,得到所述待处理文本的文本词集合和所述文本词集合中每一文本词对应的词性;
根据所述文本词的词性,在所述文本词集合中筛选出所述待处理文本中用于分类的目标文本词和机构名实体,所述机构名实体用于指示所述待处理文本中出现的机构名称;
基于所述机构名实体和目标文本词,将所述文本词集合转换为文本信息;
对所述文本信息进行特征提取,得到所述待处理文本的文本特征;
根据所述文本特征确定所述待处理文本的分配路径,并基于所述分配路径分配所述待处理文本。
2.根据权利要求1所述的文本处理方法,其特征在于,所述根据所述文本词的词性,在所述文本词集合中筛选出所述待处理文本中用于分类的目标文本词和机构名实体,包括:
获取所述文本词集合中所有文本词的文本属性信息;
根据所述文本词的词性和文本属性信息,在所述文本词集合中筛选出所述待处理文本中用于分类的目标文本词;
基于预设实体识别策略,在所述文本词集合中识别出所述机构名实体。
3.根据权利要求2所述的文本处理方法,其特征在于,所述根据所述文本词的词性和文本属性信息,在所述文本词集合中筛选出所述待处理文本中用于分类的目标文本词,包括:
根据所述文本词的词性,在所述文本词集合中筛选出所述待处理文本的主题词,所述主题词为表征所述待处理文本主题的词;
基于所述文本属性信息,在所述文本词集合中提取出待处理文本中的关键词,并将所述主题词和关键词作为用于分类的目标文本词,所述关键词为区别所述待处理文本类别的词。
4.根据权利要求3所述的文本处理方法,其特征在于,所述根据所述文本词的词性,在所述文本词集合中筛选出待处理文本的主题词,包括:
根据预设领域词典,对所述文本词集合中的文本词进行分类,得到所述文本词集合中每一文本词的词类型;
获取所述词类型对应的初始主题权重和所述词性对应的权重调整参数;
基于所述权重调整参数,对所述文本词的初始主题权重进行调整,得到所述文本词集合中每一文本词对应的主题权重;
根据所述主题权重,在所述文本词集合中筛选出所述待处理文本的主题词。
5.根据权利要求3所述的文本处理方法,其特征在于,所述基于所述文本属性信息,在所述文本词集合中提取出待处理文本中的关键词,包括:
对所述待处理文本进行文本区域划分,并在所述文本词集合中筛选出每一文本区域对应的候选文本词;
根据所述文本属性信息,统计所述候选文本词在所述待处理文本中的词频信息;
基于所述词频信息,在所述文本词集合中提取出所述待处理文本中的关键词。
6.根据权利要求2所述的文本处理方法,其特征在于,所述基于预设实体识别策略,在所述文本词集合中识别出所述机构名实体,包括:
根据所述预设实体识别策略,在所述文本词集合中识别出实体,得到实体集合;
确定所述实体集合中每一实体的实体类型,并基于所述实体类型,在所述实体集合中筛选出所述机构名实体。
7.根据权利要求1至6任一项所述的文本处理方法,其特征在于,所述基于所述机构名实体和目标文本词,将所述文本词集合转换为文本信息,包括:
将所述文本词集合中每一文本词转换为初始文本信息;
基于所述机构名实体和目标文本词,对所述初始文本信息进行加权,得到所述文本信息。
8.根据权利要求7所述的文本处理方法,其特征在于,所述基于所述机构名实体和目标文本词,对所述初始文本信息进行加权,得到所述文本信息,包括:
获取所述机构名实体和目标文本词分别对应的文本权重;
根据所述文本权重,确定所述文本词集合中每一文本词对应的目标文本权重;
基于所述目标文本权重,对所述初始文本信息进行加权,得到所述文本信息。
9.根据权利要求8所述的文本处理方法,其特征在于,所述根据所述文本权重,确定所述文本词集合中每一文本词对应的目标文本权重,包括:
当所述文本集合中的文本词属于所述机构名实体或目标文本词时,将所述机构名实体或目标文本词对应的文本权重作为所述文本集合中的文本词对应的目标文本权重;
当所述文本集合中的文本词属于所述机构名实体和目标文本词时,在所述文本权重中筛选出最大的文本权重作为所述文本词集合中的文本词对应的目标文本权重;
当所述文本集合中的文本词不属于所述机构名实体和目标文本词时,在所述文本权重中筛选出最小的文本权重作为所述文本词集合中的文本词对应的目标文本权重。
10.根据权利要求1至6任一项所述的文本处理方法,其特征在于,所述对所述待处理文本的文本内容进行识别,得到所述待处理文本的文本词集合和所述文本词集合中每一文本词对应的词性,包括:
对所述待处理文本的文本内容进行过滤,得到过滤后文本内容;
对所述过滤后文本内容进行分词处理,得到所述待处理文本的初始文本词;
识别所述初始文本词的词性,并根据所述初始文本词的词性,对所述初始文本词进行调整,得到所述文本词集合;
基于所述初始文本词的词性,确定所述文本词集合中每一文本词对应的词性。
11.根据权利要求1至6任一项所述的文本处理方法,其特征在于,所述对所述文本信息进行特征提取,得到所述待处理文本的文本特征,包括:
对所述文本词集合中每一文本词进行独热编码,得到文本词编码;
采用训练后处理模型将所述文本词编码与所述文本信息进行融合,得到融合后文本信息;
对所述融合后文本信息进行特征提取,得到所述待处理文本的文本特征。
12.根据权利要求11所述的文本处理方法,其特征在于,所述采用训练后处理模型将所述文本词编码与所述文本信息进行融合,得到融合后文本信息之前,还包括:
构建文本样本集合,所述文本样本集合中包括已标注分配路径的文本;
采用预设处理模型对所述文本样本集合中文本样本的分配路径进行预测,得到预测分配路径;
根据所述预测分配路径与标注分配路径对所述预设处理模型进行收敛,得到所述训练后处理模型。
13.根据权利要求12所述的文本处理方法,其特征在于,所述预设处理模型包括特征提取子模型和分类子模型,所述采用预设处理模型对所述文本样本集合中文本样的分配路径进行预测,得到预测分配路径,包括:
采用所述特征提取子模型对所述文本样本集合中的文本样本进行特征提取,得到目标文本特征;
采用所述分类子模型对所述目标文本特征进行分类,得到所述文本样本集合中文本样本的文本类型;
根据所述文本样本集合中文本样本的文本类型,确定所述预测分配路径。
14.根据权利要求12所述的文本处理方法,其特征在于,所述根据所述文本特征确定所述待处理文本的分配路径,包括:
分别计算所述文本特征与所述文本样本集合中每一文本样本的预设文本特征之间的文本相似度;
根据所述文本相似度,在所述文本样本集合中提取出与所述待处理文本相似的至少一个候选文本样本;
在所述候选文本样本的分配路径中筛选出所述待处理文本的分配路径。
15.一种文本处理装置,其特征在于,包括:
获取单元,用于获取待处理文本,并对所述待处理文本的文本内容进行识别,得到所述待处理文本的文本词集合和所述文本词集合中每一文本词对应的词性;
筛选单元,用于根据所述文本词的词性,在所述文本词集合中筛选出所述待处理文本中用于分类的目标文本词和机构名实体,所述机构名实体用于指示所述待处理文本中出现的机构名称;
转换单元,用于基于所述机构名实体和目标文本词,将所述文本词集合转换为文本信息;
提取单元,用于对所述文本信息进行特征提取,得到所述待处理文本的文本特征;
处理单元,用于根据所述文本特征确定所述待处理文本的分配路径,并基于所述分配路径分配所述待处理文本。
CN202110452764.4A 2021-04-26 2021-04-26 一种文本处理方法和装置 Active CN112989054B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110452764.4A CN112989054B (zh) 2021-04-26 2021-04-26 一种文本处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110452764.4A CN112989054B (zh) 2021-04-26 2021-04-26 一种文本处理方法和装置

Publications (2)

Publication Number Publication Date
CN112989054A true CN112989054A (zh) 2021-06-18
CN112989054B CN112989054B (zh) 2021-07-30

Family

ID=76340233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110452764.4A Active CN112989054B (zh) 2021-04-26 2021-04-26 一种文本处理方法和装置

Country Status (1)

Country Link
CN (1) CN112989054B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975301A (zh) * 2023-09-22 2023-10-31 腾讯科技(深圳)有限公司 文本聚类方法、装置、电子设备和计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN110427610A (zh) * 2019-06-25 2019-11-08 平安科技(深圳)有限公司 文本分析方法、装置、计算机装置及计算机存储介质
CN110955776A (zh) * 2019-11-16 2020-04-03 中电科大数据研究院有限公司 一种政务文本分类模型的构建方法
CN111126060A (zh) * 2019-12-24 2020-05-08 东软集团股份有限公司 一种主题词的提取方法、装置、设备及存储介质
CN111666379A (zh) * 2020-06-11 2020-09-15 腾讯科技(深圳)有限公司 一种事件元素提取方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536679A (zh) * 2018-04-13 2018-09-14 腾讯科技(成都)有限公司 命名实体识别方法、装置、设备及计算机可读存储介质
CN110427610A (zh) * 2019-06-25 2019-11-08 平安科技(深圳)有限公司 文本分析方法、装置、计算机装置及计算机存储介质
CN110955776A (zh) * 2019-11-16 2020-04-03 中电科大数据研究院有限公司 一种政务文本分类模型的构建方法
CN111126060A (zh) * 2019-12-24 2020-05-08 东软集团股份有限公司 一种主题词的提取方法、装置、设备及存储介质
CN111666379A (zh) * 2020-06-11 2020-09-15 腾讯科技(深圳)有限公司 一种事件元素提取方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
路永和等: "文本分类中受词性影响的特征权重计算方法", 《现代图书情报技术》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975301A (zh) * 2023-09-22 2023-10-31 腾讯科技(深圳)有限公司 文本聚类方法、装置、电子设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN112989054B (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN107861951A (zh) 智能客服中的会话主题识别方法
CN112989761B (zh) 文本分类方法及装置
CN110347840A (zh) 投诉文本类别的预测方法、系统、设备和存储介质
CN112749341A (zh) 重点舆情推荐方法、可读存储介质及数据处理装置
CN117390497B (zh) 基于大语言模型的类目预测方法、装置和设备
CN114997288B (zh) 一种设计资源关联方法
CN114169869B (zh) 一种基于注意力机制的岗位推荐方法及装置
CN116975267A (zh) 一种信息处理方法、装置及计算机设备、介质、产品
CN116797195A (zh) 工单处理方法、装置、计算机设备和计算机可读存储介质
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN112987940B (zh) 一种基于样本概率量化的输入方法、装置和电子设备
CN112989054B (zh) 一种文本处理方法和装置
CN113821612A (zh) 信息查找方法以及装置
CN112925983A (zh) 一种电网资讯信息的推荐方法及系统
CN110377706A (zh) 基于深度学习的搜索语句挖掘方法及设备
Park et al. Dynamic Automated Labeling System for Real-Time User Intention Analysis
Lokman et al. A conceptual IR chatbot framework with automated keywords-based vector representation generation
CN111259138A (zh) 一种税务领域短文本的情感分类方法及装置
CN113010670B (zh) 账号信息聚类方法、检测方法、装置及存储介质
Zhang et al. Fine-grained Tourist Satisfaction Prediction Based on Deep Learning
CN117521674B (zh) 对抗信息的生成方法、装置、计算机设备和存储介质
CN116340552B (zh) 一种标签排序方法、装置、设备及存储介质
CN114385892B (zh) 一种文章等级识别方法、装置、服务器及存储介质
Umar et al. Profiling Inappropriate Users’ Tweets Using Deep Long Short-Term Memory (LSTM) Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40045867

Country of ref document: HK