CN115186096A - 针对特定类型分词的识别方法、装置、介质及电子设备 - Google Patents
针对特定类型分词的识别方法、装置、介质及电子设备 Download PDFInfo
- Publication number
- CN115186096A CN115186096A CN202110374256.9A CN202110374256A CN115186096A CN 115186096 A CN115186096 A CN 115186096A CN 202110374256 A CN202110374256 A CN 202110374256A CN 115186096 A CN115186096 A CN 115186096A
- Authority
- CN
- China
- Prior art keywords
- participle
- word segmentation
- participles
- word
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种针对特定类型分词的识别方法、针对特定类型分词的识别装置、计算机可读存储介质及电子设备;涉及计算机技术领域;包括:获取待分析文本的分词集合;基于分词集合中各分词确定分词集合中目标分词的参考评分;从预设知识图谱中获取与目标分词的相邻分词对应的相关分词,并将分词集合中的目标分词替换为相关分词;基于分词集合中各分词确定相关分词的参考评分;根据目标分词的参考评分和相关分词的参考评分对目标分词进行特定类型识别。可见,实施本申请实施例,通过对分词的多维度数据计算,得到多维度特定类型评价,结合多维度评价进行特定类型识别,规避了词表的局限性,基于人工智能实现多维度分析,提升特定类型分词的识别精度。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种针对特定类型分词的识别方法、针对特定类型分词的识别装置、计算机可读存储介质及电子设备。
背景技术
随着计算机技术的发展,用户可以通过即时通讯软件聊天。在聊天的过程中,当用户发送一些短语黑名单中的敏感词时,一般会被软件进行特殊处理,例如,软件会通过一些替代字符(如,***)代替文本中的该敏感词。但是,用户为了与对方正常聊天,也会使用一些特定类型词(如,港币)代替该敏感词(如,钢笔)。
对于敏感词的特定类型词的识别方式通常可以包括:构建敏感词的特定类型词的词表,当用户输入的文本中存在命中该词表的短语,可以将该短语识别为敏感词的特定类型词。但是,这种方式存在词表中词量的局限性,当用户之间约定了新的特定类型词来代替一些敏感词,而该新的特定类型词未收录至上述词表中,则无法对其进行识别。可见,上述方法存在特定类型词识别精度不高的问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请的目的在于提供一种针对特定类型分词的识别方法、针对特定类型分词的识别装置、计算机可读存储介质及电子设备,可以通过对于文本中分词的多维度分析,得到分词在多维度下的特定类型评价,从而可以结合多个维度的评价对分词进行特定类型识别,规避了现有技术中词表的局限性。以及,可以基于人工智能技术实现对于文本中分词的多维度分析,提升对于特定类型分词的识别精度。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请的一方面,提供一种针对特定类型分词的识别方法,包括:
获取待分析文本的分词集合;
基于分词集合中各分词确定分词集合中目标分词的参考评分,目标分词的参考评分用于对目标分词进行特定类型评价;
从预设知识图谱中获取与目标分词的相邻分词对应的相关分词,并将分词集合中的目标分词替换为相关分词;
基于分词集合中各分词确定相关分词的参考评分,相关分词的参考评分用于对目标分词进行特定类型评价;
根据目标分词的参考评分和相关分词的参考评分对目标分词进行特定类型识别。
在本申请的一种示例性实施例中,相关分词为词组中的随机分词或词组中调用频率最高的分词,其中的词组为相邻分词在预设知识图谱中所属词组。
根据本申请的一方面,提供一种针对特定类型分词的识别装置,包括:分词获取单元、参数确定单元、分词替换单元以及特定类型分词识别单元,其中:
分词获取单元,用于获取待分析文本的分词集合;
参数确定单元,用于基于分词集合中各分词确定分词集合中目标分词的参考评分,目标分词的参考评分用于对目标分词进行特定类型评价;
分词替换单元,用于从预设知识图谱中获取与目标分词的相邻分词对应的相关分词,并将分词集合中的目标分词替换为相关分词;
参数确定单元,还用于基于分词集合中各分词确定相关分词的参考评分,相关分词的参考评分用于对目标分词进行特定类型评价;
特定类型分词识别单元,用于根据目标分词的参考评分和相关分词的参考评分对目标分词进行特定类型识别。
在本申请的一种示例性实施例中,分词获取单元获取待分析文本的分词集合,包括:
提取样本会话中出现频次高于频次阈值的特定短语;
对获取到的待分析文本进行分词处理,得到参考分词集合;
基于特定短语对参考分词集合进行分词重组,得到分词集合。
在本申请的一种示例性实施例中,上述装置还包括:
会话读取单元,用于在分词获取单元提取样本会话中出现频次高于频次阈值的特定短语之前,读取至少一组历史会话,并根据文本数量从至少一组历史会话中筛选样本会话;其中,样本会话中包含的文本数量大于预设文本数量。
在本申请的一种示例性实施例中,分词获取单元提取样本会话中出现频次高于频次阈值的特定短语,包括:
对样本会话中的样本文本进行逐字切分,得到用于构成样本文本的字集合;
按照设置的相邻数量以及样本文本中的字位置关系将字集合中相邻的字进行组合,得到样本文本对应的短语集合;
获取样本会话中所有短语集合,得到总短语集合;
根据总短语集合的总短语量计算总短语集合中各短语的出现频次;
将出现频次高于频次阈值的短语确定为特定短语。
在本申请的一种示例性实施例中,分词获取单元对获取到的待分析文本进行分词处理,得到参考分词集合,包括:
按照当前会话的文本发布顺序选取待分析文本;
对待分析文本进行分词处理,得到参考分词集合。
在本申请的一种示例性实施例中,分词获取单元基于特定短语对参考分词集合进行分词重组,得到分词集合,包括:
基于特定短语将参考分词集合中的待合并分词进行合并,以实现分词重组并得到分词集合;
其中,待合并分词为参考分词集合中命中同一特定短语的分词,分词集合中的分词数量小于或等于参考分词集合中的分词数量。
在本申请的一种示例性实施例中,分词替换单元从预设知识图谱中获取与目标分词的相邻分词对应的相关分词,包括:
将预设知识图谱与目标分词分相邻分词进行比对,得到比对结果;
若比对结果用于表示相邻分词命中预设知识图谱,则从预设知识图谱中获取与目标分词的相邻分词对应的相关分词。
在本申请的一种示例性实施例中,分词替换单元从预设知识图谱中获取与目标分词的相邻分词对应的相关分词,包括:
从预设知识图谱中确定相邻分词所处的词组;
从词组中选取与相邻分词的词性一致的分词作为相关分词;其中,相关分词为词组中的随机分词或词组中调用频率最高的分词。
在本申请的一种示例性实施例中,若相关分词的数量大于1,参数确定单元基于分词集合中各分词确定相关分词的参考评分,包括:
确定每个所述相关分词替换至所述分词集合中之后的参考评分,得到参考评分集合;
计算参考评分集合的加权平均值作为相关分词的参考评分。
在本申请的一种示例性实施例中,特定类型分词识别单元根据目标分词的参考评分和相关分词的参考评分对目标分词进行特定类型识别,包括:
确定目标分词的参考评分和相关分词的参考评分之间的差值;
根据差值和目标分词的参考评分对目标分词进行特定类型识别。
在本申请的一种示例性实施例中,特定类型分词识别单元根据差值和目标分词的参考评分对目标分词进行特定类型识别,包括:
根据预设权重值计算差值和目标分词的参考评分的加权和;
若检测到加权和大于或等于预设门限值,则判定目标分词属于特定类型;其中,特定类型用于特指目标分词是针对预设敏感词的改写词。
在本申请的一种示例性实施例中,参数确定单元基于分词集合中各分词确定分词集合中目标分词的参考评分,包括:
基于预测模型根据与目标分词相邻的前一分词预测目标分词的出现概率;
基于分类模型预测目标分词属于特定类型的特定概率;
根据出现概率和特定概率确定目标分词的参考评分。
在本申请的一种示例性实施例中,上述装置还包括:
模型训练单元,用于获取预设知识图谱中至少一个样本预设分词;其中,至少一个样本预设分词均与目标分词的相邻分词相对应;将至少一个样本预设分词输入分类模型,以训练分类模型对至少一个样本预设分词进行特定类型判别,得到判别结果;根据判别结果更新分类模型。
根据本申请的一方面,提供一种电子设备,包括:处理器;以及存储器,用于存储处理器的可执行指令;其中,处理器配置为经由执行可执行指令来执行上述任意一项的方法。
根据本申请的一方面,提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任意一项的方法。
根据本申请的一方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的各种可选实现方式中提供的方法。
本申请示例性实施例可以具有以下部分或全部有益效果:
在本申请的一示例实施方式所提供的针对特定类型分词的识别方法中,可以获取待分析文本的分词集合;基于分词集合中各分词确定分词集合中目标分词的参考评分,目标分词的参考评分用于对目标分词进行特定类型评价;从预设知识图谱中获取与目标分词的相邻分词对应的相关分词,并将分词集合中的目标分词替换为相关分词;基于分词集合中各分词确定相关分词的参考评分,相关分词的参考评分用于对目标分词进行特定类型评价;根据目标分词的参考评分和相关分词的参考评分对目标分词进行特定类型识别。依据上述方案描述,本申请一方面可以通过对于文本中分词的多维度分析,得到分词在多维度下的特定类型评价,从而可以结合多个维度的评价对分词进行特定类型识别,规避了现有技术中词表的局限性。以及,可以基于人工智能技术实现对于文本中分词的多维度分析,提升对于特定类型分词的识别精度。本申请又一方面,能够基于预设知识图谱中的预设分词对目标分词进行替换,从而基于替换前后的参考评分作为针对目标分词的多维度评价,从而实现对于特定类型分词的挖掘。由于本申请无需构建特定类型分词的词表,故可以避免特定类型分词的词表对于计算机资源的占用,从而有利于提升对于计算机资源的利用率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本申请实施例的一种针对特定类型分词的识别方法及针对特定类型分词的识别装置的示例性系统架构的示意图;
图2示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图;
图3示意性示出了根据本申请的一个实施例的针对特定类型分词的识别方法的流程图;
图4示意性示出了根据本申请的一个实施例的会话界面示意图;
图5示意性示出了根据本申请的一个实施例分词重组前的分类模型结构示意图;
图6示意性示出了根据本申请的一个实施例的预测模型结构示意图;
图7示意性示出了根据本申请的一个实施例的分类模型结构示意图;
图8示意性示出了根据本申请的一个实施例基于模型训练的分类模型结构示意图;
图9示意性示出了根据本申请的一个实施例的针对特定类型分词的识别方法的流程图;
图10示意性示出了根据本申请的一个实施例中的针对特定类型分词的识别装置的结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本申请的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本申请的各方面变得模糊。
此外,附图仅为本申请的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
图1示出了可以应用本申请实施例的一种针对特定类型分词的识别方法及针对特定类型分词的识别装置的示例性应用环境的系统架构的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器集群105。网络104用以在终端设备101、102、103和服务器集群105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
本申请实施例所提供的针对特定类型分词的识别方法可以由终端设备101、102、103或服务器集群105中任一服务器执行。相应地,针对特定类型分词的识别装置一般设置于服务器集群105的服务器或终端设备101、102、103中。举例而言,在一种示例性实施例中,服务器集群105中任一服务器可以获取待分析文本的分词集合;基于分词集合中各分词确定分词集合中目标分词的参考评分,目标分词的参考评分用于对目标分词进行特定类型评价;从预设知识图谱中获取与目标分词的相邻分词对应的相关分词,并将分词集合中的目标分词替换为相关分词;基于分词集合中各分词确定相关分词的参考评分,相关分词的参考评分用于对目标分词进行特定类型评价;根据目标分词的参考评分和相关分词的参考评分对目标分词进行特定类型识别。
其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请可以应用云技术中的云计算对待分析文本进行特定类型分词识别。其中,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
云技术中的云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform asa Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
云计算可以基于人工智能执行相应的计算,人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
本申请中还应用到了机器学习,以提升模型精度。其中,机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
图2示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图2示出的电子设备的计算机系统200仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图2所示,计算机系统200包括中央处理单元(CPU)201,其可以根据存储在只读存储器(ROM)202中的程序或者从储存部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中,还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。
以下部件连接至I/O接口205:包括键盘、鼠标等的输入部分206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207;包括硬盘等的储存部分208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器210上,以便于从其上读出的计算机程序根据需要被安装入储存部分208。
特别地,根据本申请的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分209从网络上被下载和安装,和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时,执行本申请的方法和装置中限定的各种功能。
现有技术中,对于敏感词的特定类型词的识别方式通常可以包括如下方式:
一、构建敏感词的特定类型词的词表,当用户输入的文本中存在命中该词表的短语,可以将该短语识别为敏感词的特定类型词。但是,这种方式存在词表中词量的局限性,当用户之间约定了新的特定类型词来代替一些敏感词,而该新的特定类型词未收录至上述词表中,则无法对其进行识别。
二、对用户输入的文本进行语义识别,若识别结果表示词表中存在一个词与文本中的一个短语相似度较高,则可以将该短语识别为特定类型词。但是,这种方式也需要对词表进行不断补充才能维持识别精度,存在词表维护成本较高的问题。并且,语义识别也会存在识别错误的情况(例如,将“吸毒”和“吸烟”识别为相似词汇),过度依赖语义识别也容易对特定类型词识别精度造成影响。
三、在词表中新增各词汇的拼音,以丰富词表,进而基于该词表进行特定类型词识别。但是,词汇同音的情况较多,若根据拼音将一短语识别为特定类型词,则容易造成识别错误的情况。
基于上述问题,本示例实施方式提供了一种针对特定类型分词的识别方法。请参阅图3,图3示意性示出了根据本申请的一个实施例的针对特定类型分词的识别方法的流程图。如图3所示,该针对特定类型分词的识别方法可以包括:步骤S310~步骤S350。
步骤S310:获取待分析文本的分词集合。
步骤S320:基于分词集合中各分词确定分词集合中目标分词的参考评分,目标分词的参考评分用于对目标分词进行特定类型评价。
步骤S330:从预设知识图谱中获取与目标分词的相邻分词对应的相关分词,并将分词集合中的目标分词替换为相关分词。
步骤S340:基于分词集合中各分词确定相关分词的参考评分,相关分词的参考评分用于对目标分词进行特定类型评价。
步骤S350:根据目标分词的参考评分和相关分词的参考评分对目标分词进行特定类型识别。
实施图3所示的方法,可以通过对于文本中分词的多维度分析,得到分词在多维度下的特定类型评价,从而可以结合多个维度的评价对分词进行特定类型识别,规避了现有技术中词表的局限性。以及,可以基于人工智能技术实现对于文本中分词的多维度分析,提升对于特定类型分词的识别精度。此外,能够基于预设知识图谱中的预设分词(如,知识图谱)对目标分词进行替换,从而基于替换前后的参考评分作为针对目标分词的多维度评价,从而实现对于特定类型分词的挖掘。由于本申请无需构建特定类型分词的词表,故可以避免特定类型分词的词表对于计算机资源的占用,从而有利于提升对于计算机资源的利用率。
下面,对于本示例实施方式的上述步骤进行更加详细的说明。
在步骤S310中,获取待分析文本的分词集合。
具体地,待分析文本可以为用户输入的文本,本申请可以应用于即时通讯软件的会话窗口中,针对一次会话,会话方在输入框输入的文本可以为待分析文本;其中,会话方输入的文本可以包括文字、字符、数字、字母等,本申请实施例不作限定,待分析文本的分词集合特指对于文本中文字的分词集合。
另外,待分析文本的分词集合中的分词数量为至少一个,本申请实施例不作限定,例如,若待分析文本为“谁可以换钢笔汇率”对应的分词集合可以为[谁,可以,换,钢笔,汇率]。其中,“钢笔”可以为敏感词“港币”的改写词。其中,敏感词的改写词是用户对于敏感词的改写替换。
作为一种可选的实施例,获取待分析文本的分词集合,包括:提取样本会话中出现频次高于频次阈值的特定短语;对获取到的待分析文本进行分词处理,得到参考分词集合;基于特定短语对参考分词集合进行分词重组,得到分词集合。
具体地,频次阈值用于限定最低的分词出现频次。
可见,实施该可选的实施例,能够基于真实的用户会话提取特定短语,并依据特定短语对分词集合进行修正,能够提升分词的准确率,从而提升特定类型分词的识别精度。
作为一种可选的实施例,提取样本会话中出现频次高于频次阈值的特定短语之前,上述方法还包括:读取至少一组历史会话,并根据文本数量从至少一组历史会话中筛选样本会话;其中,样本会话中包含的文本数量大于预设文本数量。
具体地,历史会话为存储的单位时间(如,1年)的真实用户会话。另外,文本数量为会话中包括的对话框数量,对话框数量包括对话一方发送的对话框数量和对话另一方发送的对话框数量,根据文本数量从至少一组历史会话中筛选样本会话,包括:从至少一组历史会话中筛选文本数量大于预设文本数量(如,10个)的历史会话作为样本会话。
可见,实施该可选的实施例,能够对历史会话进行筛选,从而得到有效的样本会话,这样可以有利于提升对于真实用户会话中的特定短语的识别精度,也可以降低无效样本会话对于计算资源的浪费。
作为一种可选的实施例,提取样本会话中出现频次高于频次阈值的特定短语,包括:对样本会话中的样本文本进行逐字切分,得到用于构成样本文本的字集合;按照设置的相邻数量以及样本文本中的字位置关系将字集合中相邻的字进行组合,得到样本文本对应的短语集合;获取样本会话中所有短语集合,得到总短语集合;根据总短语集合的总短语量计算总短语集合中各短语的出现频次;将出现频次高于频次阈值(如,10次)的短语确定为特定短语。
具体地,字集合中的字数量与样本文本中的字数量一致,例如,对样本文本“谁可以换钢笔汇率”进行逐字切分,可以得到字集合[谁,可,以,换,钢,笔,汇,率]。相邻数量可以为n且设置的相邻数量可以为一个或多个,n为正整数。举例来说,设置的相邻数量可以包括2和4,即,将字集合中每相邻的两个字进行组合,以及将字集合中每相邻的四个字进行组合,得到的短语集合中包含2字短语(如,“谁可”、“可以”、“以换”、“换钢”、“钢笔、”“笔汇”、“汇率”)也包含4字短语(如,“谁可以换”、“可以换钢”、“以换钢笔”、“换钢笔汇”、“钢笔汇率”)。
此外,特定短语用于修正分词集合,可以定义为用户常用短语。
可见,实施该可选的实施例,能够将真实的用户会话作为样本会话进行特定短语分词,从而可以将特定短语作为分词集合的优化基础,以提升分词精度,降低由于分词错误导致的特定类型分词的识别错误。
作为一种可选的实施例,对获取到的待分析文本进行分词处理,得到参考分词集合,包括:按照当前会话的文本发布顺序选取待分析文本;对待分析文本进行分词处理,得到参考分词集合。
具体地,当前会话可以为待分析文本所属的会话,当前会话的文本发布顺序可以基于会话中每个文本的发送时间得到;其中,会话指的是一系列对话组成的一个段落,实质属于一段对话。例如,若当前会话包括:发送时间为2020年1月1日00:00的文本“你好,前几天我提交了专利,怎么查询状态”、发送时间为2020年1月1日00:10的文本“登陆网站就行”、发送时间为2020年1月1日00:20的文本“好的”。可见,文本发布顺序可以为“你好,前几天我提交了专利,怎么查询状态”→“登陆网站就行”→“好的”。
基于此,按照当前会话的文本发布顺序选取待分析文本,包括:按照当前会话的文本发布顺序确定当前会话中未经识别的文本,将该文本确定为待分析文本。
请参阅图4,图4示意性示出了根据本申请的一个实施例的会话界面示意图。如图4所示,会话界面可以包括至少一组会话,如会话410和会话420。会话410和会话420分别用于讨论不同的主题。其中,会话410中包括以下文本:“你好,我在申请专利,想咨询问题”、“什么问题”、“怎么写交底书”、“网站上可以下载到模板”、“好的”。会话420中包括以下文本:“你好,前几天我提交了专利,怎么查询状态”、“登陆网站就行”、“好的”。其中,针对会话,不仅可以基于主题进行划分,还可以基于时间跨度进行划分,例如,会话410和会话420之间不仅对应于不同的主题,也可以存在时间跨度(如,1个月),通过检测文本之间的时间跨度可以对会话进行划分。
另外,对待分析文本进行分词处理,得到参考分词集合,包括:依据最大匹配分词算法/最短路径分词算法/生成式模型分词算法/判别式模型分词算法对待分析文本进行分词处理,得到参考分词集合,本申请实施例不作限定。
可见,实施该可选的实施例,能够通过对于待分析文本的分词处理,得到相应的分词集合,从而对其中的分词进行依次分析,以识别出其中的特定类型分词。
在步骤S320中,基于分词集合中各分词确定分词集合中目标分词的参考评分,目标分词的参考评分用于对目标分词进行特定类型评价。
具体地,第一维度可以用于正向描述目标分词,第二维度可以用于侧向描述目标分词。目标分词的参考评分用于表征目标分词出现在待分析文本中的可能性,相关分词的参考评分均用于表征相关分词出现在待分析文本中的可能性,目标分词的参考评分/相关分词的参考评分越小,则表示目标分词/相关分词出现在待分析文本中的可能性越小。目标分词为分词集合中任一分词,依据步骤S310~步骤S350,可以将待分析文本的分词集合中各个分词依次作为目标分词进行特定类型识别,以提升对于特定类型分词的检出率,进而便于对特定类型分词进行特定处理,从而维护健康的会话环境。
作为一种可选的实施例,基于特定短语对参考分词集合进行分词重组,得到分词集合,包括:基于特定短语将参考分词集合中的待合并分词进行合并,以实现分词重组并得到分词集合;其中,待合并分词为参考分词集合中命中同一特定短语的分词,分词集合中的分词数量小于或等于参考分词集合中的分词数量。
具体地,基于特定短语将参考分词集合中的待合并分词进行合并,包括:基于特定短语将参考分词集合中命中特定短语的分词作为待合并分词进行合并,待合并分词合并之后得到的新分词与特定短语一致。
请参阅图5,图5示意性示出了根据本申请的一个实施例分词重组前的分类模型结构示意图。如图5所示,分类模型中可以包括:输入层510、第一特征提取层520、全联通层530、第二特征提取层540、全联通层550、第三特征提取层560、输出层570。
具体地,可以将分词集合中各分词[谁,可以,换,钢笔,汇率,优惠]依次通过输入层510输入第一特征提取层520,由第一特征提取层520提取[谁,可以,换,钢笔,汇率,优惠]的特征向量并输入至全联通层530。全联通层530可以关联接收到的特征向量,以使得关联后的特征向量能够融合其他特征向量的部分特征并将关联结果输入第二特征提取层540,以进行进一步地特征提取。进而,第二特征提取层540可以将特征提取输入全联通层550,以使得全联通层550进一步关联接收到的特征向量并将关联结果输入第三特征提取层560,以使得第三特征提取层560进行进一步地特征提取并输入输出层570,以使得输出层570可以预测目标分词属于特定类型的特定概率,根据特定概率可以判定其是否属于特定类型。例如,[谁,可以,换,钢笔,汇率,优惠]分别对应的特定概率为[0%,0%,100%,100%,0%,0%],故,可以判定[谁,可以,换,钢笔,汇率,优惠]对应的判定结果分别可以为[否,否,是,是,否,否]。
但是,其中存在对于“换,钢笔”的分词错误,基于上述实施例,可以基于特定短语将参考分词集合中的待合并分词“换”“钢笔”进行合并,以实现分词重组并得到分词集合[谁,可以,换钢笔,汇率,优惠],进而,基于正确的分词结果可以提升对于特定类型分词的识别精度。在分词重组之后,可以基于图7所示的分类模型结构示意图计算各分词的特定概率。
其中,第一特征提取层520可以设置为用于处理序列数据的神经网络(RecurrentNeural Network,RNN)、门控循环单元(GRU)、长短期记忆网络(Long Short-Term Memory,LSTM)。
需要说明的是,第一特征提取层520、第二特征提取层540、第三特征提取层560对应于不同的特征提取参数。全联通层530和全联通层550也对应于不同的网络参数。
可见,实施该可选的实施例,能够基于分词重组,避免出现分词错误,以提升对于特定类型分词的识别精度。
作为一种可选的实施例,基于分词集合中各分词确定分词集合中目标分词的参考评分,包括:基于预测模型根据与目标分词相邻的前一分词预测目标分词的出现概率;基于分类模型预测目标分词属于特定类型的特定概率;根据出现概率和特定概率确定目标分词的参考评分。
具体地,基于预测模型根据与目标分词相邻的前一分词预测目标分词的出现概率,包括:将分词集合输入预测模型,并通过右移一位的方式,方便预测模型根据输入的分词预测下一位分词的出现概率,进而,基于与目标分词相邻的前一分词预测目标分词的出现概率。其中,预测模型可以为语言模型,语言模型是根据语言客观事实而进行的语言抽象数学建模。
请参阅图6,图6示意性示出了根据本申请的一个实施例的预测模型结构示意图。如图6所示,预测模型可以包括:输入层610、第一特征提取层620、全联通层630、第二特征提取层640、全联通层650、第三特征提取层660、输出层670。
具体地,可以将分词集合中各分词[谁,可以,换钢笔,汇率,优惠]依次通过输入层610输入第一特征提取层620,由第一特征提取层620提取[谁,可以,换钢笔,汇率,优惠]的特征向量并输入至全联通层630。全联通层630可以关联接收到的特征向量,以使得关联后的特征向量能够融合其他特征向量的部分特征并将关联结果输入第二特征提取层640,以进行进一步地特征提取。进而,第二特征提取层640可以将特征提取输入全联通层650,以使得全联通层650进一步关联接收到的特征向量并将关联结果输入第三特征提取层660,以使得第三特征提取层660进行进一步地特征提取并输入输出层670,以使得输出层670可以根据相邻的前一分词预测目标分词的出现概率。例如,根据“谁”预测“可以”的出现概率、根据“可以”预测“换钢笔”的出现概率、根据“换钢笔”预测“汇率”的出现概率、根据“汇率”预测“优惠”的出现概率。
其中,第一特征提取层620可以设置为用于处理序列数据的神经网络(RecurrentNeural Network,RNN)、门控循环单元(GRU)、长短期记忆网络(Long Short-Term Memory,LSTM)。
需要说明的是,第一特征提取层620、第二特征提取层640、第三特征提取层660对应于不同的特征提取参数。全联通层630和全联通层650也对应于不同的网络参数。
另外,上述方法还可以包括:通过无监督方式将样本文本输入预测模型,以训练预测模型,从而提升预测模型依据文本的前一分词预测后一分词的准确率。
具体地,基于分类模型预测目标分词属于特定类型的特定概率,包括:对目标分词进行特征提取,得到目标分词对应的特征向量,根据特征向量预测目标分词属于特定类型的特定概率。
请参阅图7,图7示意性示出了根据本申请的一个实施例的分类模型结构示意图。如图7所示,分类模型可以包括:输入层710、第一特征提取层720、全联通层730、第二特征提取层740、全联通层750、第三特征提取层760、输出层770。需要说明的是,预测模型中的特征提取层中的参数不同于分类模型中的特征提取层中的参数,预测模型中的全联通层中的参数也不同于分类模型中的全联通层中的参数。
具体地,可以将分词集合中各分词[谁,可以,换钢笔,汇率,优惠]依次通过输入层710输入第一特征提取层720,由第一特征提取层720提取[谁,可以,换钢笔,汇率,优惠]的特征向量并输入至全联通层730。全联通层730可以关联接收到的特征向量,以使得关联后的特征向量能够融合其他特征向量的部分特征并将关联结果输入第二特征提取层740,以进行进一步地特征提取。进而,第二特征提取层740可以将特征提取输入全联通层750,以使得全联通层750进一步关联接收到的特征向量并将关联结果输入第三特征提取层760,以使得第三特征提取层760进行进一步地特征提取并输入输出层770,以使得输出层770可以预测目标分词属于特定类型的特定概率,根据特定概率可以判定其是否属于特定类型。例如,[谁,可以,换钢笔,汇率,优惠]分别对应的特定概率为[0%,0%,100%,0%,0%],故,可以判定[谁,可以,换钢笔,汇率,优惠]对应的判定结果分别可以为[否,否,是,否,否]。
其中,第一特征提取层720可以设置为用于处理序列数据的神经网络(RecurrentNeural Network,RNN)、门控循环单元(GRU)、长短期记忆网络(Long Short-Term Memory,LSTM)。
需要说明的是,第一特征提取层720、第二特征提取层740、第三特征提取层760对应于不同的特征提取参数。全联通层730和全联通层750也对应于不同的网络参数。
另外,上述方法还可以包括:通过有监督方式将标注后的样本文本输入分类模型,以训练分类模型,从而提升分类模型对于分类的特定类型识别精度。其中,标注后的样本文本中每个分词对应一个标注结果,标注结果用于表征该分词是否为特定类型分词。
另外,根据出现概率和特定概率确定目标分词的参考评分,包括:根据出现概率和特定概率的预设权重计算出现概率和特定概率的加权和,并将该加权和确定为目标分词的参考评分;其中,预设权重可以通过常数进行表示。
可见,实施该可选的实施例,能够通过预测模型和分类模型对目标分词进行概率预测,基于上述的出现概率和特定概率确定出的目标分词的参考评分能够更为精准的评价目标分词,从而有利于提升对于目标分词的特定类型识别精度。
在步骤S330中,从预设知识图谱中获取与目标分词的相邻分词对应的相关分词,并将分词集合中的目标分词替换为相关分词。
具体地,预设知识图谱可以用于存储预设分词,预设分词可以基于知识图谱的形式进行表示;其中,知识图谱是用图(graph)或者网络(network)的形式表示知识(即,预设分词)。知识图谱包括多个节点,每个节点代表一个实体,节点与节点之间的边代表实体之间的关系。需要说明的是,实体是具有实际含义的词,可以作为一个个体,例如“马克思”、“深圳”、“地球”等。
作为一种可选的实施例,上述方法还包括:获取预设知识图谱中至少一个样本预设分词;其中,至少一个样本预设分词均与目标分词的相邻分词相对应;将至少一个样本预设分词输入分类模型,以训练分类模型对至少一个样本预设分词进行特定类型判别,得到判别结果;根据判别结果更新分类模型。
具体地,至少一个样本预设分词的向量与目标分词的向量之间的向量距离小于预设距离,该向量距离可以为余弦距离也可以为欧式距离。另外,上述的判别结果可以用于表示预设分词是否属于特定类型。
请参阅图8,图8示意性示出了根据本申请的一个实施例基于模型训练的分类模型结构示意图。如图8所示,可以通过gcn模型880对样本预设分词“外币”、“交易”、“货币交换”、“汇率”进行特征提取,从而根据特征提取训练分类模型中的第一特征提取层820,以提升第一特征提取层820的特征提取精度;其中,gcn模型880是一种图卷积网络(GraphConvolutional Network)。
具体地,基于训练后的分类模型,可以将分词集合中各分词[谁,可以,换钢笔,汇率,优惠]依次通过输入层810输入第一特征提取层820,由第一特征提取层820提取[谁,可以,换钢笔,汇率,优惠]的特征向量并输入至全联通层830。全联通层830可以关联接收到的特征向量,以使得关联后的特征向量能够融合其他特征向量的部分特征并将关联结果输入第二特征提取层840,以进行进一步地特征提取。进而,第二特征提取层840可以将特征提取输入全联通层850,以使得全联通层850进一步关联接收到的特征向量并将关联结果输入第三特征提取层860,以使得第三特征提取层860进行进一步地特征提取并输入输出层870,以使得输出层870可以预测目标分词属于特定类型的特定概率,根据特定概率可以判定其是否属于特定类型。例如,[谁,可以,换钢笔,汇率,优惠]分别对应的特定概率为[0%,0%,100%,0%,0%],故,可以判定[谁,可以,换钢笔,汇率,优惠]对应的判定结果分别可以为[否,否,是,否,否]。
其中,第一特征提取层820可以设置为用于处理序列数据的神经网络(RecurrentNeural Network,RNN)、门控循环单元(GRU)、长短期记忆网络(Long Short-Term Memory,LSTM)。
需要说明的是,第一特征提取层820、第二特征提取层840、第三特征提取层860对应于不同的特征提取参数。全联通层830和全联通层850也对应于不同的网络参数。
可见,实施该可选的实施例,能够有针对性地训练分类模型,进而有利于提升对于目标分词的特定类型识别精度。
作为一种可选的实施例,从预设知识图谱中获取与目标分词的相邻分词对应的相关分词,包括:将预设知识图谱与目标分词分相邻分词进行比对,得到比对结果;若比对结果用于表示相邻分词命中预设知识图谱,则从预设知识图谱中获取与目标分词的相邻分词对应的相关分词。其中,相邻分词可以为目标分词的前一分词也可以为目标分词的后一分词,本申请实施例不作限定。
具体地,将预设知识图谱与目标分词分相邻分词进行比对,得到比对结果,包括:将预设知识图谱中每个词组(如,三元组,即包含三个词语的组合)分别与相邻分词进行比对,得到比对结果,该比对结果用于表征相邻分词是否命中预设知识图谱;其中,三元组可以由主谓宾形式存储,主(如,猪)、谓(如,是)、宾(如,动物)分别为三个词语,该三个词语存在语序关系,主语和宾语可以对应于相同词性。
基于此,若相关分词的数量为多个,将分词集合中的相邻分词替换为相关分词,包括:随机选取相关分词中的一个替换分词;将分词集合中的相邻分词替换为替换分词。举例来说,若预设知识图谱中与相邻分词“汇率”一致的命中分词“汇率”对应的相关分词包括:“港币”、“外币”、“交易”、“货币交换”,则随机选择相关分词“港币”,将[谁,可以,换,钢笔,汇率]中的“钢笔”替换为[谁,可以,换,港币,汇率]。其中,“港币”与“外币”可以处于同一三元组;“汇率”与“外币”可以处于同一三元组;“汇率”与“交易”可以处于同一三元组;“汇率”与“货币交换”可以处于同一三元组。
可见,实施该可选的实施例,对于目标分词的替换可以有利于获得用于评价目标分词的另一维度的评分,从而有利于从多个维度识别目标分词是否为特定类型的分词,提升识别精度。
在本申请的一种示例性实施例中,从预设知识图谱中获取与目标分词的相邻分词对应的相关分词,包括:从预设知识图谱中确定相邻分词所处的词组;从词组中选取与相邻分词的词性一致的分词作为相关分词;其中,相关分词为词组中的随机分词或词组中调用频率最高的分词。
具体地,从预设知识图谱中确定相邻分词所处的词组,包括:从预设知识图谱中确定目标分词的前一分词所处的词组以及目标分词的后一分词所处的词组;其中,调用频率最高的分词可以理解为热门分词。
另外,从词组中选取与相邻分词的词性一致的分词作为相关分词,包括:从词组中选取与相邻分词的词性(如,名词)一致的至少一个分词作为相关分词。
可见,实施该可选的实施例,根据对相关分词的选择可以确定出适于替换的分词,并对分词集合中的目标分词予以替换,以便得到另一维度下的对于目标分词的评价,从而有利于基于多维度评价对目标分词进行特定类型识别,提升识别精度。
在本申请的一种示例性实施例中,若相关分词的数量大于1,参数确定单元基于分词集合中各分词确定相关分词的参考评分,包括:确定每个所述相关分词替换至所述分词集合中之后的参考评分,得到参考评分集合;计算参考评分集合的加权平均值作为相关分词的参考评分。
其中,计算参考评分集合的加权平均值作为相关分词的参考评分,包括:获取参考评分集合中各参考评分的权重值,根据该权重值计算参考评分集合的加权平均值,作为相关分词的参考评分。
可见,实施该可选的实施例,可以综合所有相关分词的评分,从而有利于基于多维度评价对目标分词进行特定类型识别,提升识别精度。
在步骤S340中,基于分词集合中各分词确定相关分词的参考评分,相关分词的参考评分用于对目标分词进行特定类型评价。
具体地,基于分词集合中各分词确定相关分词的参考评分,包括:基于相关分词在分词集合中的排列位置以及分词集合中各分词确定相关分词的参考评分。其中,相关分词的参考评分也是基于预测模型和分类模型得到的,其获取过程与目标分词的参考评分的获取过程相同。
在步骤S350中,根据目标分词的参考评分和相关分词的参考评分对目标分词进行特定类型识别。
具体地,特定类型可以为指定的分词类型,如,敏感词的改写词类型、限制级词汇类型等,本申请实施例不作限定。
另外,根据目标分词的参考评分和相关分词的参考评分对目标分词进行特定类型识别之后,上述方法还可以包括:若识别出目标分词为特定类型分词,则根据该目标分词的字数将目标分词中每个字转换为特定字符(如,*),和/或,输出用于提示文本中存在敏感词的提示信息(如,您输出的文本中存在敏感词,该敏感词不能进行正常显示)。
作为一种可选的实施例,根据目标分词的参考评分和相关分词的参考评分对目标分词进行特定类型识别,包括:确定目标分词的参考评分和相关分词的参考评分之间的差值;根据差值和目标分词的参考评分对目标分词进行特定类型识别。
具体地,确定目标分词的参考评分和相关分词的参考评分之间的差值,包括:计算目标分词的参考评分s2和相关分词的参考评分s3之间的差值s1=|s2-s3|。
可见,实施该可选的实施例,能够基于目标分词的参考评分和相关分词的参考评分之间的差异进行对目标分词进行特定类型识别,从而提升特定类型识别精度。
作为一种可选的实施例,根据差值和目标分词的参考评分对目标分词进行特定类型识别,包括:根据预设权重值计算差值和目标分词的参考评分的加权和;若检测到加权和大于或等于预设门限值,则判定目标分词属于特定类型;其中,特定类型用于特指目标分词是针对预设敏感词的改写词。
具体地,预设权重值包括差值和目标分词的参考评分分别对应的权重值,根据预设权重值计算差值和目标分词的参考评分的加权和,包括:根据差值和目标分词的参考评分分别对应的权重值a1和a2,计算差值s1和目标分词的参考评分s2的加权和(a1*s1+a2*s2),a1、s1、a2、s2均为常数。
可见,实施该可选的实施例,能够基于权重合理分配差值和目标分词的参考评分在加权和中的占比,从而有利于提升特定类型识别精度。
请参阅图9,图9示意性示出了根据本申请的一个实施例的针对特定类型分词的识别方法的流程图。如图9所示,针对特定类型分词的识别方法包括:步骤S900~步骤S980。
步骤S900:对样本会话中的样本文本进行逐字切分,得到用于构成样本文本的字集合,并按照设置的相邻数量以及样本文本中的字位置关系将字集合中相邻的字进行组合,得到样本文本对应的短语集合。
步骤S910:获取样本会话中所有短语集合,得到总短语集合,并根据总短语集合的总短语量计算总短语集合中各短语的出现频次,将出现频次高于频次阈值的短语确定为特定短语。
步骤S920:对待分析文本进行分词处理,得到参考分词集合。
步骤S930:基于特定短语将参考分词集合中的待合并分词进行合并,以实现分词重组并得到分词集合;其中,待合并分词为参考分词集合中命中同一特定短语的分词,分词集合中的分词数量小于或等于参考分词集合中的分词数量。
步骤S940:获取预设知识图谱中至少一个样本预设分词,其中,至少一个样本预设分词均与目标分词的相邻分词相对应,进而将至少一个样本预设分词输入分类模型,以训练分类模型对至少一个样本预设分词进行特定类型判别,得到判别结果,并根据判别结果更新分类模型。
步骤S950:基于预测模型根据与目标分词相邻的前一分词预测目标分词的出现概率,基于分类模型预测目标分词属于特定类型的特定概率,并根据出现概率和特定概率确定目标分词的参考评分。
步骤S960:将预设知识图谱与目标分词分相邻分词进行比对,得到比对结果,若比对结果用于表示相邻分词命中预设知识图谱,则从预设知识图谱中获取与目标分词的相邻分词对应的相关分词,并将分词集合中的目标分词替换为相关分词。
步骤S970:基于分词集合中各分词确定相关分词的参考评分,相关分词的参考评分用于对目标分词进行特定类型评价。
步骤S980:确定目标分词的参考评分和相关分词的参考评分之间的差值,根据预设权重值计算差值和目标分词的参考评分的加权和,若检测到加权和大于或等于预设门限值,则判定目标分词属于特定类型;其中,特定类型用于特指目标分词是针对预设敏感词的改写词。
需要说明的是,步骤S900~步骤S980与图3所示的各步骤及其实施例相对应,针对步骤S900~步骤S980的具体实施方式,请参阅图3所示的各步骤及其实施例,此处不再赘述。
可见,实施图9所示的方法,可以通过对于文本中分词的多维度分析,得到分词在多维度下的特定类型评价,从而可以结合多个维度的评价对分词进行特定类型识别,规避了现有技术中词表的局限性。以及,可以基于人工智能技术实现对于文本中分词的多维度分析,提升对于特定类型分词的识别精度。此外,能够基于预设知识图谱中的预设分词(如,知识图谱)对目标分词进行替换,从而基于替换前后的参考评分作为针对目标分词的多维度评价,从而实现对于特定类型分词的挖掘。由于本申请无需构建特定类型分词的词表,故可以避免特定类型分词的词表对于计算机资源的占用,从而有利于提升对于计算机资源的利用率。
进一步的,本示例实施方式中,还提供了一种针对特定类型分词的识别装置。参考图10所示,该针对特定类型分词的识别装置1000可以包括:分词获取单元1001、参数确定单元1002、分词替换单元1003以及特定类型分词识别单元1004,其中:
分词获取单元1001,用于获取待分析文本的分词集合;
参数确定单元1002,用于基于分词集合中各分词确定分词集合中目标分词的参考评分,目标分词的参考评分用于对目标分词进行特定类型评价;
分词替换单元1003,用于从预设知识图谱中获取与目标分词的相邻分词对应的相关分词,并将分词集合中的目标分词替换为相关分词;
参数确定单元1002,还用于基于分词集合中各分词确定相关分词的参考评分,相关分词的参考评分用于对目标分词进行特定类型评价;
特定类型分词识别单元1004,用于根据目标分词的参考评分和相关分词的参考评分对目标分词进行特定类型识别。
其中,目标分词为分词集合中任一分词。
可见,实施图10所示的装置,可以通过对于文本中分词的多维度分析,得到分词在多维度下的特定类型评价,从而可以结合多个维度的评价对分词进行特定类型识别,规避了现有技术中词表的局限性。以及,可以基于人工智能技术实现对于文本中分词的多维度分析,提升对于特定类型分词的识别精度。此外,能够基于预设知识图谱中的预设分词(如,知识图谱)对目标分词进行替换,从而基于替换前后的参考评分作为针对目标分词的多维度评价,从而实现对于特定类型分词的挖掘。由于本申请无需构建特定类型分词的词表,故可以避免特定类型分词的词表对于计算机资源的占用,从而有利于提升对于计算机资源的利用率。
在本申请的一种示例性实施例中,分词获取单元1001获取待分析文本的分词集合,包括:
提取样本会话中出现频次高于频次阈值的特定短语;
对获取到的待分析文本进行分词处理,得到参考分词集合;
基于特定短语对参考分词集合进行分词重组,得到分词集合。
可见,实施该可选的实施例,能够基于真实的用户会话提取特定短语,并依据特定短语对分词集合进行修正,能够提升分词的准确率,从而提升特定类型分词的识别精度。
在本申请的一种示例性实施例中,上述装置还包括:
会话读取单元(未图示),用于在分词获取单元1001提取样本会话中出现频次高于频次阈值的特定短语之前,读取至少一组历史会话,并根据文本数量从至少一组历史会话中筛选样本会话;其中,样本会话中包含的文本数量大于预设文本数量。
可见,实施该可选的实施例,能够对历史会话进行筛选,从而得到有效的样本会话,这样可以有利于提升对于真实用户会话中的特定短语的识别精度,也可以降低无效样本会话对于计算资源的浪费。
在本申请的一种示例性实施例中,分词获取单元1001提取样本会话中出现频次高于频次阈值的特定短语,包括:
对样本会话中的样本文本进行逐字切分,得到用于构成样本文本的字集合;
按照设置的相邻数量以及样本文本中的字位置关系将字集合中相邻的字进行组合,得到样本文本对应的短语集合;
获取样本会话中所有短语集合,得到总短语集合;
根据总短语集合的总短语量计算总短语集合中各短语的出现频次;
将出现频次高于频次阈值的短语确定为特定短语。
可见,实施该可选的实施例,能够将真实的用户会话作为样本会话进行特定短语分词,从而可以将特定短语作为分词集合的优化基础,以提升分词精度,降低由于分词错误导致的特定类型分词的识别错误。
在本申请的一种示例性实施例中,分词获取单元1001对获取到的待分析文本进行分词处理,得到参考分词集合,包括:
按照当前会话的文本发布顺序选取待分析文本;
对待分析文本进行分词处理,得到参考分词集合。
可见,实施该可选的实施例,能够通过对于待分析文本的分词处理,得到相应的分词集合,从而对其中的分词进行依次分析,以识别出其中的特定类型分词。
在本申请的一种示例性实施例中,分词获取单元1001基于特定短语对参考分词集合进行分词重组,得到分词集合,包括:
基于特定短语将参考分词集合中的待合并分词进行合并,以实现分词重组并得到分词集合;
其中,待合并分词为参考分词集合中命中同一特定短语的分词,分词集合中的分词数量小于或等于参考分词集合中的分词数量。
可见,实施该可选的实施例,能够基于分词重组,避免出现分词错误,以提升对于特定类型分词的识别精度。
在本申请的一种示例性实施例中,分词替换单元1003从预设知识图谱中获取与目标分词的相邻分词对应的相关分词,包括:
将预设知识图谱与目标分词分相邻分词进行比对,得到比对结果;
若比对结果用于表示相邻分词命中预设知识图谱,则从预设知识图谱中获取与目标分词的相邻分词对应的相关分词。
可见,实施该可选的实施例,对于目标分词的替换可以有利于获得用于评价目标分词的另一维度的评分,从而有利于从多个维度识别目标分词是否为特定类型的分词,提升识别精度。
在本申请的一种示例性实施例中,分词替换单元1003从预设知识图谱中获取与目标分词的相邻分词对应的相关分词,包括:
从预设知识图谱中确定相邻分词所处的词组;
从词组中选取与相邻分词的词性一致的分词作为相关分词;其中,相关分词为词组中的随机分词或词组中调用频率最高的分词。
可见,实施该可选的实施例,根据对相关分词的选择可以确定出适于替换的分词,并对分词集合中的目标分词予以替换,以便得到另一维度下的对于目标分词的评价,从而有利于基于多维度评价对目标分词进行特定类型识别,提升识别精度。
在本申请的一种示例性实施例中,若相关分词的数量大于1,参数确定单元基于分词集合中各分词确定相关分词的参考评分,包括:
确定每个所述相关分词替换至所述分词集合中之后的参考评分,得到参考评分集合;
计算参考评分集合的加权平均值作为相关分词的参考评分。
可见,实施该可选的实施例,可以综合所有相关分词的评分,从而有利于基于多维度评价对目标分词进行特定类型识别,提升识别精度。
在本申请的一种示例性实施例中,特定类型分词识别单元1004根据目标分词的参考评分和相关分词的参考评分对目标分词进行特定类型识别,包括:
确定目标分词的参考评分和相关分词的参考评分之间的差值;
根据差值和目标分词的参考评分对目标分词进行特定类型识别。
可见,实施该可选的实施例,能够基于目标分词的参考评分和相关分词的参考评分之间的差异进行对目标分词进行特定类型识别,从而提升特定类型识别精度。
在本申请的一种示例性实施例中,特定类型分词识别单元1004根据差值和目标分词的参考评分对目标分词进行特定类型识别,包括:
根据预设权重值计算差值和目标分词的参考评分的加权和;
若检测到加权和大于或等于预设门限值,则判定目标分词属于特定类型;其中,特定类型用于特指目标分词是针对预设敏感词的改写词。
可见,实施该可选的实施例,能够基于权重合理分配差值和目标分词的参考评分在加权和中的占比,从而有利于提升特定类型识别精度。
在本申请的一种示例性实施例中,参数确定单元1002基于分词集合中各分词确定分词集合中目标分词的参考评分,包括:
基于预测模型根据与目标分词相邻的前一分词预测目标分词的出现概率;
基于分类模型预测目标分词属于特定类型的特定概率;
根据出现概率和特定概率确定目标分词的参考评分。
可见,实施该可选的实施例,能够通过预测模型和分类模型对目标分词进行概率预测,基于上述的出现概率和特定概率确定出的目标分词的参考评分能够更为精准的评价目标分词,从而有利于提升对于目标分词的特定类型识别精度。
在本申请的一种示例性实施例中,上述装置还包括:
模型训练单元(未图示),用于获取预设知识图谱中至少一个样本预设分词;其中,至少一个样本预设分词均与目标分词的相邻分词相对应;将至少一个样本预设分词输入分类模型,以训练分类模型对至少一个样本预设分词进行特定类型判别,得到判别结果;根据判别结果更新分类模型。
可见,实施该可选的实施例,能够有针对性地训练分类模型,进而有利于提升对于目标分词的特定类型识别精度。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
由于本申请的示例实施例的针对特定类型分词的识别装置的各个功能模块与上述针对特定类型分词的识别方法的示例实施例的步骤对应,因此对于本申请装置实施例中未披露的细节,请参照本申请上述的针对特定类型分词的识别方法的实施例。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (15)
1.一种针对特定类型分词的识别方法,其特征在于,包括:
获取待分析文本的分词集合;
基于所述分词集合中各分词确定所述分词集合中目标分词的参考评分;所述目标分词的参考评分用于对所述目标分词进行特定类型评价;
从预设知识图谱中获取与所述目标分词的相邻分词对应的相关分词,并将所述分词集合中的所述目标分词替换为所述相关分词;
基于所述分词集合中各分词确定所述相关分词的参考评分;所述相关分词的参考评分用于对所述目标分词进行特定类型评价;
根据所述目标分词的参考评分和所述相关分词的参考评分对所述目标分词进行特定类型识别。
2.根据权利要求1所述的方法,其特征在于,获取待分析文本的分词集合,包括:
提取样本会话中出现频次高于频次阈值的特定短语;
对获取到的待分析文本进行分词处理,得到参考分词集合;
基于所述特定短语对所述参考分词集合进行分词重组,得到所述分词集合。
3.根据权利要求2所述的方法,其特征在于,提取样本会话中出现频次高于频次阈值的特定短语之前,所述方法还包括:
读取至少一组历史会话,并根据文本数量从所述至少一组历史会话中筛选所述样本会话;其中,所述样本会话中包含的文本数量大于预设文本数量。
4.根据权利要求2所述的方法,其特征在于,提取样本会话中出现频次高于频次阈值的特定短语,包括:
对所述样本会话中的样本文本进行逐字切分,得到用于构成所述样本文本的字集合;
按照设置的相邻数量以及所述样本文本中的字位置关系将所述字集合中相邻的字进行组合,得到所述样本文本对应的短语集合;
获取所述样本会话中所有短语集合,得到总短语集合;
根据所述总短语集合的总短语量计算所述总短语集合中各短语的出现频次;
将出现频次高于所述频次阈值的短语确定为所述特定短语。
5.根据权利要求2所述的方法,其特征在于,对获取到的待分析文本进行分词处理,得到参考分词集合,包括:
按照当前会话的文本发布顺序选取所述待分析文本;
对所述待分析文本进行分词处理,得到所述参考分词集合。
6.根据权利要求2所述的方法,其特征在于,基于所述特定短语对所述参考分词集合进行分词重组,得到所述分词集合,包括:
基于所述特定短语将所述参考分词集合中的待合并分词进行合并,以实现分词重组并得到所述分词集合;
其中,所述待合并分词为所述参考分词集合中命中同一特定短语的分词,所述分词集合中的分词数量小于或等于所述参考分词集合中的分词数量。
7.根据权利要求1所述的方法,其特征在于,从预设知识图谱中获取与所述目标分词的相邻分词对应的相关分词,包括:
将所述预设知识图谱与所述目标分词的相邻分词进行比对,得到比对结果;
若所述比对结果用于表示所述相邻分词命中所述预设知识图谱,则从所述预设知识图谱中获取与所述相邻分词对应的相关分词。
8.根据权利要求7所述的方法,其特征在于,从所述预设知识图谱中获取与所述相邻分词对应的相关分词,包括:
从所述预设知识图谱中确定所述相邻分词所处的词组;
从所述词组中选取与所述相邻分词的词性一致的分词作为所述相关分词。
9.根据权利要求7所述的方法,其特征在于,若所述相关分词的数量大于1,基于所述分词集合中各分词确定所述相关分词的参考评分,包括:
确定每个所述相关分词替换至所述分词集合中之后的参考评分,得到参考评分集合;
计算参考评分集合的加权平均值作为所述相关分词的参考评分。
10.根据权利要求1所述的方法,其特征在于,根据所述目标分词的参考评分和所述相关分词的参考评分对所述目标分词进行特定类型识别,包括:
确定所述目标分词的参考评分和所述相关分词的参考评分之间的差值;
根据所述差值和所述目标分词的参考评分对所述目标分词进行特定类型识别。
11.根据权利要求1所述的方法,其特征在于,基于所述分词集合中各分词确定所述相关分词的参考评分,包括:
基于所述预测模型根据与所述目标分词相邻的前一分词预测所述相关分词的出现概率;
基于分类模型预测所述相关分词属于所述特定类型的特定概率;
根据所述出现概率和所述特定概率确定所述相关分词的参考评分。
12.根据权利要求10所述的方法,其特征在于,所述方法还包括:
获取所述预设知识图谱中至少一个样本预设分词;其中,所述至少一个样本预设分词均与所述目标分词的相邻分词相对应;
将所述至少一个样本预设分词输入所述分类模型,以训练所述分类模型对所述至少一个样本预设分词进行特定类型判别,得到判别结果;
根据所述判别结果更新所述分类模型。
13.一种针对特定类型分词的识别装置,其特征在于,包括:
分词获取单元,用于获取待分析文本的分词集合;
参数确定单元,用于基于所述分词集合中各分词确定所述分词集合中目标分词的参考评分,所述目标分词的参考评分用于对所述目标分词进行特定类型评价;
分词替换单元,用于从预设知识图谱中获取与所述目标分词的相邻分词对应的相关分词,并将所述分词集合中的所述目标分词替换为所述相关分词;
所述参数确定单元,还用于基于所述分词集合中各分词确定所述相关分词的参考评分,所述相关分词的参考评分用于对所述目标分词进行特定类型评价;
特定类型分词识别单元,用于根据所述目标分词的参考评分和所述相关分词的参考评分对所述目标分词进行特定类型识别。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-12任一项所述的方法。
15.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110374256.9A CN115186096A (zh) | 2021-04-07 | 2021-04-07 | 针对特定类型分词的识别方法、装置、介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110374256.9A CN115186096A (zh) | 2021-04-07 | 2021-04-07 | 针对特定类型分词的识别方法、装置、介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115186096A true CN115186096A (zh) | 2022-10-14 |
Family
ID=83512355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110374256.9A Pending CN115186096A (zh) | 2021-04-07 | 2021-04-07 | 针对特定类型分词的识别方法、装置、介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115186096A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115640392A (zh) * | 2022-12-06 | 2023-01-24 | 杭州心识宇宙科技有限公司 | 一种对话系统优化的方法、装置、存储介质及电子设备 |
-
2021
- 2021-04-07 CN CN202110374256.9A patent/CN115186096A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115640392A (zh) * | 2022-12-06 | 2023-01-24 | 杭州心识宇宙科技有限公司 | 一种对话系统优化的方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444340B (zh) | 文本分类方法、装置、设备及存储介质 | |
CN110377759B (zh) | 事件关系图谱构建方法及装置 | |
CN110705301B (zh) | 实体关系抽取方法及装置、存储介质、电子设备 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN112164391A (zh) | 语句处理方法、装置、电子设备及存储介质 | |
CN112070138B (zh) | 多标签混合分类模型的构建方法、新闻分类方法及系统 | |
CN111371767B (zh) | 恶意账号识别方法、恶意账号识别装置、介质及电子设备 | |
CN111932386B (zh) | 用户账号确定方法及装置、信息推送方法及装置、电子设备 | |
CN110598070B (zh) | 应用类型识别方法及装置、服务器及存储介质 | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN110795944A (zh) | 推荐内容处理方法及装置、情感属性确定方法及装置 | |
CN112418320B (zh) | 一种企业关联关系识别方法、装置及存储介质 | |
CN110705255A (zh) | 检测语句之间的关联关系的方法和装置 | |
CN111461757B (zh) | 信息处理方法及装置、计算机存储介质、电子设备 | |
CN115062718A (zh) | 语言模型训练方法、装置、电子设备及存储介质 | |
CN110826327A (zh) | 情感分析方法、装置、计算机可读介质及电子设备 | |
CN114357195A (zh) | 基于知识图谱的问答对生成方法、装置、设备及介质 | |
CN112926341A (zh) | 文本数据处理方法、装置 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN115186096A (zh) | 针对特定类型分词的识别方法、装置、介质及电子设备 | |
CN111325578A (zh) | 预测模型的样本确定方法及装置、介质和设备 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
CN115130536A (zh) | 特征提取模型的训练方法、数据处理方法、装置及设备 | |
CN110472140B (zh) | 对象词推荐方法、装置及电子设备 | |
CN113657092A (zh) | 识别标签的方法、装置、设备以及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |