CN111177402A - 基于分词处理的评价方法、装置、计算机设备及存储介质 - Google Patents

基于分词处理的评价方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111177402A
CN111177402A CN201911280648.8A CN201911280648A CN111177402A CN 111177402 A CN111177402 A CN 111177402A CN 201911280648 A CN201911280648 A CN 201911280648A CN 111177402 A CN111177402 A CN 111177402A
Authority
CN
China
Prior art keywords
word segmentation
word
target sentence
sentence
segmentation processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911280648.8A
Other languages
English (en)
Other versions
CN111177402B (zh
Inventor
钱江奇
陆海俊
谢昱昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Hangzhou Information Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201911280648.8A priority Critical patent/CN111177402B/zh
Publication of CN111177402A publication Critical patent/CN111177402A/zh
Application granted granted Critical
Publication of CN111177402B publication Critical patent/CN111177402B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于分词处理的评价方法、装置、计算机设备及存储介质,包括:获取目标语句,其中,所述目标语句为需要进行分词处理的语句信息;对所述目标语句进行评级处理,其中,所述评级处理为对所述目标语句按照预设的难易程度划分规则进行难易程度分级;根据所述评级处理的结果,从预设规则数据库中匹配分词处理规则,其中,所述预设规则数据库中根据目标语句的不同级别映射不同的分词规则;根据所匹配的分词处理规则对所述目标语句进行分词处理以得到针对该目标语句的满意度分值。通过对用户以语言形式表述的评价进行分词处理后,提取对应的评价词,通过计算生成评价的分值,使评价更为直接和客观,通过构建词典库和特征树,使分词更精准。

Description

基于分词处理的评价方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机应用技术领域,具体而言,本发明涉及一种基于分词处理的评价方法、装置、计算机设备及存储介质。
背景技术
自然语言处理作为人工智能的重要分支领域,在众多场景如机器翻译、智能问答等中使用地越来越来多,也扮演着越来越重要的角色。而文本分词是自然语言处理过程中最基础的过程,文本只有在精准地分词后才能被更好的分析和识别。目前分词方法主要分为三大类:机械分词法、基于机器学习的分词方法和基于知识理解的分词法。
机械分词法基于字符串匹配,简单高效,对简单语言处理效果还行,但是对复杂有歧义的语句处理不是很好,不能处理歧义和新词。基于机器学习的分词法通过构建统计学模型,对文本分词的精度有所提高,能够学习新词,但是复杂度比较高,需要训练庞大的语料库,训练代价大,而且对于词典中的词不能很好地识别。基于知识理解的分词法采用模拟人类理解来分词,复杂度高,目前还在试验中。
发明内容
本发明的目的旨在至少能解决上述的技术缺陷之一,公开一种基于分词处理的评价方法、装置、计算机设备及存储介质,能够将文字性评价语言通过分词处理,提取表征评价语句的词语转换成满意度数值,且转化过程简单,准确度高。
为了达到上述目的,本发明公开一种基于分词处理的评价方法,包括:
获取目标语句,其中,所述目标语句为需要进行分词处理的语句信息;
对所述目标语句进行评级处理,其中,所述评级处理为对所述目标语句按照预设的难易程度划分规则进行难易程度分级;
根据所述评级处理的结果,从预设规则数据库中匹配分词处理规则,其中,所述预设规则数据库中根据目标语句的不同级别映射不同的分词规则;
根据所匹配的分词处理规则对所述目标语句进行分词处理以得到针对该目标语句的满意度分值。
可选的,所述对所述目标语句进行评级处理的方法包括:
识别所述目标语句,并判断所述目标语句中是否包含歧义词库中的关键词,其中,所述歧义词库包括预设的带有歧义性质的关键词集合;
当不包含所述歧义词库中的关键词时,将对应的目标语句标识为第一级语句;
当包含所述歧义词库中的关键词时,将对应的目标语句标识为第二级语句。
可选的,所述根据所述评级处理的结果,从预设规则数据库中匹配分词处理规则的方法包括:
将所述第一级语句映射第一分词规则,其中,所述第一分词规则为通过第一神经网络模型对所述目标语句进行分词;
将所述第二级语句映射第二分词规则,其中,所述第二分词规则为通过第二神经网络训练模型对所述目标语句进行分词。
可选的,所述通过第一神经网络模型对所述目标语句进行分词的方法包括:
根据词典库对所述目标语句进行特征识别,其中,所述词典库为根据聚类算法生成的包括词语类型及其该类型映射的词语的集合;
根据特征识别结果,构建特征关系树,其中,所述特征关系树为根据所识别的指定类型的词语之间的关联关系以树状分层形式对其进行罗列而形成的关系图谱;
根据所述特征关系树对所述目标语句进行分词处理。
可选的,所述通过第二神经网络训练模型对所述目标语句进行分词的方法包括:
根据词典库对所述目标语句进行特征识别,其中,所述词典库为根据聚类算法生成的包括词语类型及其该类型映射的词语的集合;
根据特征识别结果,构建特征关系树,其中,所述特征关系树为根据所识别的指定类型的词语之间的关联关系以树状分层形式对其进行罗列而形成的关系图谱;
根据所述特征关系树通过隐马尔可夫模型对所述目标语句进行分词处理。
可选的,所述根据所述关联关系通过隐马尔可夫模型对所述目标语句进行分词处理的方法包括:
通过所述特征关系树的关联关系,分别计算得到所述关系树结构中的父节点与子节点之间的词语转移概率、子节点中各个词语的生成概率以及所述目标语句中第一个词的类型出现概率值;
根据所述父节点与子节点词语转移概率、子节点中各个词语的生成概率以及所述目标语句中第一个词的类型出现概率值输入隐马尔可夫模型中进行分析以进行分词。
可选的,所述根据所匹配的分词处理规则对所述目标语句进行分词处理以得到针对该目标语句的满意度分值的方法包括:
根据所述分词处理规则提取表征评价状态词的预设分值及所述评价状态词对应的类型的阈值;
根据所述阈值和预设分值通过加权平均的方式获取得到满意度分值。
另一方面,本申请公开一种基于分词处理的评价装置,包括:
获取模块:被配置为执行获取目标语句,其中,所述目标语句为需要进行分词处理的语句信息;
评级模块:被配置为执行对所述目标语句进行评级处理,其中,所述评级处理为对所述目标语句按照预设的难易程度划分规则进行难易程度分级;
分词模块:被配置为执行根据所述评级处理的结果,从预设规则数据库中匹配分词处理规则,其中,所述预设规则数据库中根据目标语句的不同级别映射不同的分词规则;
评分模块:被配置为执行根据所匹配的分词处理规则对所述目标语句进行分词处理以得到针对该目标语句的满意度分值。
可选的,所述评级模块还包括:
判断模块:被配置为执行识别所述目标语句,并判断所述目标语句中是否包含歧义词库中的关键词,其中,所述歧义词库包括预设的带有歧义性质的关键词集合;
第一标识模块:被配置为执行当不包含所述歧义词库中的关键词时,将对应的目标语句标识为第一级语句;
第二标识模块:被配置为执行当包含所述歧义词库中的关键词时,将对应的目标语句标识为第二级语句。
可选的,所述分词模块包括:
第一映射模块:被配置为执行将所述第一级语句映射第一分词规则,其中,所述第一分词规则为通过第一神经网络模型对所述目标语句进行分词;
第二映射模块:被配置为执行将所述第二级语句映射第二分词规则,其中,所述第二分词规则为通过第二神经网络训练模型对所述目标语句进行分词。
可选的,所述第一映射模块包括:
第一特征识别模块:被配置为执行根据词典库对所述目标语句进行特征识别,其中,所述词典库为根据聚类算法生成的包括词语类型及其该类型映射的词语的集合;
第一构建模块:被配置为执行根据特征识别结果,构建特征关系树,其中,所述特征关系树为根据所识别的指定类型的词语之间的关联关系以树状分层形式对其进行罗列而形成的关系图谱;
第一处理模块:被配置为执行根据所述特征关系树对所述目标语句进行分词处理。
可选的,所述第二映射模块包括:
第二特征识别模块:被配置为执行根据词典库对所述目标语句进行特征识别,其中,所述词典库为根据聚类算法生成的包括词语类型及其该类型映射的词语的集合;
第二构建模块:被配置为执行根据特征识别结果,构建特征关系树,其中,所述特征关系树为根据所识别的指定类型的词语之间的关联关系以树状分层形式对其进行罗列而形成的关系图谱;
第二处理模块:被配置为执行根据所述特征关系树通过隐马尔可夫模型对所述目标语句进行分词处理。
可选的,所述第二处理模块还包括:
概率计算模块:被配置为执行通过所述特征关系树的关联关系,分别计算得到所述关系树结构中的父节点与子节点之间的词语转移概率、子节点中各个词语的生成概率以及所述目标语句中第一个词的类型出现概率值;
分词输出模块:根据所述父节点与子节点词语转移概率、子节点中各个词语的生成概率以及所述目标语句中第一个词的类型出现概率值输入隐马尔可夫模型中进行分析以进行分词。
可选的,所述评分模块包括:
分值获取模块:被配置为执行根据所述分词处理规则提取表征评价状态词的预设分值及所述评价状态词对应的类型的阈值;
分值计算模块:被配置为执行根据所述阈值和预设分值通过加权平均的方式获取得到满意度分值。
另一方面,本申请公开一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述任意一项所述的基于分词处理的评价方法的步骤。
另一方面,本申请公开一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任意一项所述的基于分词处理的评价方法的步骤。
本发明的有益效果是:
本申请公开一种基于分词处理的评价方法,通过对用户以语言形式表述的评价进行分词处理后,提取对应的评价词,通过计算生成评价的分值,使评价更为直接和客观,通过构建词典库和特征树,使分词更精准。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明基于分词处理的评价方法示意图;
图2为本发明目标语句进行评级处理的方法流程图;
图3为本发明匹配分词处理规则的方法流程图;
图4为本发明通过第一神经网络模型对所述目标语句进行分词的方法流程图;
图5为本发明词典库类型划分示意图;
图6为本发明特征关系树构建示意图;
图7为本发明通过第二神经网络训练模型对所述目标语句进行分词的方法流程图;
图8为本发明另一实施例中分词处理方法流程图;
图9为本发明满意度分值计算方法流程图;
图10为本发明一种基于分词处理的评价装置框图结构示意图;
图11为本发明计算机设备基本结构框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
具体的,请参阅图1,本发明公开一种基于分词处理的评价方法,包括:
S1000、获取目标语句,其中,所述目标语句为需要进行分词处理的语句信息;
目标语句为任意需要进行分词处理的语句信息,在一实施例中,目标语句为用户对装修维护工作的评价语,在评价语中可能包括多个方面的评价,当语句中涉及多个方面的评价时,无法对该整个目标语句进行整体的评价,因此需要对该目标语句进行分词处理,按照特定的规则识别出目标语句中各个词语的词性,根据词性中的具体内容得出对应的分值,并通过特定的计算规则计算出总的满意度值。例如,目标语句为“服务很好,上门及时,安装人员穿着很整洁”,该语句中涉及了对安装人员的服务、上门及穿着多个方面进行了评价,对应的评价分别为“很好”、“及时”和“整洁”,通过分词处理,识别出每个词的词性以及对应的评价词的分值后,则可根据这些分值得出一个总分值。
S2000、对所述目标语句进行评级处理,其中,所述评级处理为对所述目标语句按照预设的难易程度划分规则进行难易程度分级;
在进行总评价之前,还需要对目标语句进行评级处理,在一实施例中,评级处理为评价该目标语句的难易程度。一般的简单语句中,用词会比较明确,语句中名词后紧接程度副词,则分词时,直接提取该名词和对应的程度副词,获取该程度副词对应的分值,则可获得总分值。
但是,在一些复杂的语句中,用词不太明确,在计算机处理过程中容易被计算机误识别,例如目标语句为“服务态度稍微不是很好,上门不够及时”,若通过简单的识别,对于服务态度,可能直接识别出“服务态度很好”或者“服务态度不是很好”,但是该句中有一个“稍微”的词,其表示“不是很好”的程度是比较低的,只是轻微的不满意,通过计算机处理容易识别成特别不满意,因此获取的对应分值会比实际评分低,若采用上述简单语句的分词规则,容易导致最终评分不准确,故需要对目标语句进行评级处理,根据目标语句的难易程度区别处理。
在一实施例中,导致目标语句识别不准确的主要因素是某些词容易产生歧义,因此,针对评级用语,收集所有容易产生歧义的字或词生成歧义词库。在此基础上,请参阅图2,所述对所述目标语句进行评级处理的方法包括:
S2100、识别所述目标语句,并判断所述目标语句中是否包含歧义词库中的关键词,其中,所述歧义词库包括预设的带有歧义性质的关键词集合;
S2200、当不包含所述歧义词库中的关键词时,将对应的目标语句标识为第一级语句;
S2300、当包含所述歧义词库中的关键词时,将对应的目标语句标识为第二级语句。
在评级处理过程中,先要总体地识别目标语句中的词,在一实施例中,识别目标语句中的词可采用OCR文字识别方式或者其他文字识别的方式对目标语句进行词语提取,例如在OCR(Optical Character Recognition,光学字符识别)文字识别方式中,通过提取每个字的轮廓,比对预设文字数据库以对文字进行识别,当识别了目标语句中的字和词后,将这些字和词与预设歧义词库中的关键词进行比对,识别目标语句中是否存在预设歧义词库中的词,当目标语句中不存在预设歧义词库中的词时,表示该目标语句没有产生歧义的词语,计算机识别起来比较简单,故可将该目标语句划分为第一级语句;当目标语句中存在预设歧义词库中的词时,表示该目标语句中容易被计算机误识别,需要采用一种更为复杂的识别方式来进行分词处理。
S3000、根据所述评级处理的结果,从预设规则数据库中匹配分词处理规则,其中,所述预设规则数据库中根据目标语句的不同级别映射不同的分词规则;
在预设规则数据库中根据所划分的不同级别,分别映射不同的分词规则,通过步骤S3000获取了目标语句的评级处理结果后,从预设规则数据库中匹配对应的分词规则以进行分词。
在一实施例中,请参阅图3,所述根据所述评级处理的结果,从预设规则数据库中匹配分词处理规则的方法包括:
S3100、将所述第一级语句映射第一分词规则,其中,所述第一分词规则为通过第一神经网络模型对所述目标语句进行分词;
S3200、将所述第二级语句映射第二分词规则,其中,所述第二分词规则为通过第二神经网络训练模型对所述目标语句进行分词。
在一实施例中,分词规则包括第一分词规则和第二分词规则,具体的,第一分词规则为通过第一神经网络模型对目标语句进行分词。第一网络模型为针对简单的语句的分词处理模型,具体的,请参阅图4,所述通过第一神经网络模型对所述目标语句进行分词的方法包括:
S3210、根据词典库对所述目标语句进行特征识别,其中,所述词典库为根据聚类算法生成的包括词语类型及其该类型映射的词语的集合;
S3220、根据特征识别结果,构建特征关系树,其中,所述特征关系树为根据所识别的指定类型的词语之间的关联关系以树状分层形式对其进行罗列而形成的关系图谱;
S3230、根据所述特征关系树对所述目标语句进行分词处理。
词典库为预先训练生成的表征类型与词语间映射关系的集合库,在一实施例中,词典库根据聚类算法生成的,例如,通过预先收集的初始数据集,采用kmeans聚类算法分析该初始数据集,初始数据集为各类用语,例如在服务类的评价用语中,包括穿着、态度等为人员评价特征词,其中,穿着特征词包括整洁、不整洁、得体等评价用于,态度特征词包括好,不好等用语,通过聚类算法,将收集的初始数据即按照特征词的类型依次划分,例如图5,词典库中,包括特征名词库、特征状态库及其他,特征名词库中包括人员库、服务库,人员库中包括形容人员的词语,例如“穿着,态度”,服务库中包括形容服务内容的词,例如:“上门、技能、责任心”等,特征状态库中,包括“满意库、一般库和不满意库”等词语,满意库中包括“好、满意、不错”等词语,一般库中包括“一般,还行”等词语,不满意库中包括“差、不行、不好”等词语。在其他数据库汇总,包括标点库,罗列了所有常用标点符号,其他词库中罗列了其他的表达用词,例如“我觉得”“就是”“我感觉”之类的不对评价产生直接影响的用词用语。基于以上内容,在词典库中主要包括词语类型及其该类型映射的词语的集合,类型为上述示例中的“人员库”、“服务库”、“满意库”、“标点库”等,所映射的词语为这些数据库中汇总的各类用词用语。不同数据库分区存放于HDFS(Hadoop Distributed File System,分布式文件系统)中。
当对目标语句进行特征识别后,即可根据特征识别结果构建特征关系树,所述特征关系树为根据所识别的指定类型的词语的阈值关系以树状分层形式对其进行罗列而形成的关联关系;在一实施例中,采用FP-Tree(Frequent Pattern tree,频繁模式树)算法对现有的标准类型的特征识别结果数据进行分析并构建特征关系树,FP-Tree算法是构造一棵频繁模式树状结构,把数据集中的数据映射到树上,再根据这棵FP-Tree找出所有频繁项集。在本实施例中,具体方法包括:遍历现有特征识别结果信息,确定表征类型的词语,以出现的频繁度作为排列的阈值,进行分类排序。其中频繁度相似的词出现在树的同一层,父节点频繁度一定大于子类节点,左右邻居为经常同时出现在同一评论的特征词。最后一层叶节点为特征状态词。根据此规则,将每一评论的特征项逐一添加到FP-Tree的分支上。此处的阈值,即频繁度为通过FP-Tree算法计算得到,具体示例如图6,假设在某一装修评价语数据中,通过FP-Tree算法得出表征类型的词语中,“安装”一词的频繁度为100,在表征类型的“服务”和“人员”的频繁度为50,“上门”和“穿着”的频繁度为25,因此可将上述表征类型的词从频繁度从大到小的顺序依次罗列,最上一层父节为安装,其下的子节为服务、人员,再下一层为上门和穿着,再下一层就是对应上一层类型所映射的表征状态的副词“及时”、“整洁”等。根据上述识别的类型及该类型映射的词语,将评价语进行分词处理,例如,原始评价文本为:“服务很好,上门及时,安装人员穿得很整洁”,经过分词后为“服务/很好/上门/及时/安装/人员/穿的/很整洁”。在一实施例中,还可以设置相似词替换和去噪处理,通过识别原始文本的词语在预设标准分词数据库中查找近义词,以统一输出分词结果,例如上述原始评价文本中有“穿的”,可在标准分词数据中匹配相似词为“穿着”,因此,最后输出的结果为“服务/很好/上门/及时/安装/人员/穿着/很整洁”。
在另一实施例中,对于复杂的,带有歧义词语的评价语句,采用第二分词规则,所述第二分词规则为通过第二神经网络训练模型对所述目标语句进行分词。进一步的,请参阅图7,所述通过第二神经网络训练模型对所述目标语句进行分词的方法包括:
S3240、根据词典库对所述目标语句进行特征识别,其中,所述词典库为根据聚类算法生成的包括词语类型及其该类型映射的词语的集合;
S3250、根据特征识别结果,构建特征关系树,其中,所述特征关系树为根据所识别的指定类型的词语之间的关联关系以树状分层形式对其进行罗列而形成的关系图谱;
S3260、根据所述特征关系树通过隐马尔可夫模型对所述目标语句进行分词处理。
其中,请参阅图8,所述根据所述关联关系通过隐马尔可夫模型对所述目标语句进行分词处理的方法包括:
S3261、通过所述特征关系树的关联关系,分别计算得到所述关系树结构中的父节点与子节点之间的词语转移概率、子节点中各个词语的生成概率以及所述目标语句中第一个词的类型出现概率值;
S3262、根据所述父节点与子节点词语转移概率、子节点中各个词语的生成概率以及所述目标语句中第一个词的类型出现概率值输入隐马尔可夫模型中进行分析以进行分词。
具体的,在步骤S3240与步骤S3250的方案与上述步骤S3210和S3220的步骤一致,不同再出在于获取得到特征关系树后,进一步通过二阶隐马尔可夫模型对目标语句进行分词处理。隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。本申请中,基于步骤S3240和步骤S3250的词典库和特征关系树,抽象出2-HMM五元组以对隐马尔可夫模型的算法那进行改进,其中,五元组包括:1)状态值集合Q={N,A,E,S},其中,N表示特征名词对应的频繁度/动词对应的频繁度,A表示程度副词的频繁度值,E表示特征状态词频繁度值,S表示单字成词对应的频繁度值。2)观察状态集合V={v1,v2,v3,...,vM},v为词,M为有M个词组成的评论字集合。3)状态转移概率矩阵为C=aij={N,A,E,S}×{N,A,E,S},aij表示从状态i转移到状态j的概率。4)观测概率矩阵B=[bj(k)],其中bj(k)表示在状态j的条件下生成观测vk的概率,每个词都是一个条件概率。5)初始状态分布π表示句子的第一个词属于{N,A,E,S}中的概率。2-HMM模型可以表示为γ=(C,B,π),状态序列为Q,对应观察序列为V。采用最大联合概率来对最佳分词方案建模,例如对于句子Vn=v1,...,vn,最佳分词Wn=w1,...,wn应满足:
Figure BDA0002316655570000131
此模型可以简化为二阶马尔可夫链,当前词的转移概率只与前两个词相关,即
Figure BDA0002316655570000132
采用POS方法标注序列进行分词:
Figure BDA0002316655570000133
根据贝叶斯定理,该分词过程可以改写为:
Figure BDA0002316655570000134
因此,二阶HMM的分词模型如下:
Figure BDA0002316655570000135
其中,t-1,t0,tn+1分别表示序列的开始标记和结束标记。本实施例中,使用2-HMM模型对服务评论进行分词。基于词典库,逐行遍历观测序列即装维服务评论语句。依据上述状态值集合Q={N,A,E,S},将所有词都分成这四类。那么,对于评论语句的第一个词与第二词都可能是这四类中的一个。若第一个词为N,第二词为A/E的概率分别为40%,第二词为N的20%,第二词为S的概率为0%。若第一个词为N,第二词为A,则第三个词一定是E。当前词的转移概率与前两个词类型有关,建立二阶隐马尔可夫模型进行分析。例如样本,“服务很好,上门及时,安装人员穿得很整洁”,建立2-HMM分词模型分析,可以分为“服务/很/好/上门/及时/安装/人员/穿得/很整洁”。然后结合特征关系树,将语句中的特征词提取清洗,将样本语句优化划分为”安装/服务/很好/上门/及时/人员/很整洁”。
S4000、根据所匹配的分词处理规则对所述目标语句进行分词处理以得到针对该目标语句的满意度分值。
当通过步骤S3000进行分词处理后,再根据特定的算法,根据处理的分词情况获取对应的满意度分值。进一步的,请参阅图9,所述根据所匹配的分词处理规则对所述目标语句进行分词处理以得到针对该目标语句的满意度分值的方法包括:
S4100、根据所述分词处理规则提取表征评价状态词的预设分值及所述评价状态词对应的类型的阈值;
S4200、根据所述评价词的阈值和预设分值通过加权平均的方式获取得到满意度分值。
在一实施例中,评价状态词为在评价与中,能够直接体现用户评价态度的词,例如“满意”,“不满意”、“一般”等,而评价状态词对应的类型为上述“满意”,“不满意”、“一般”对应的特征类型,例如“速度”、“穿着”、“态度”等。通过步骤S3000获取了对应的特征关系树,因此可获取得到评价状态词对应的表征特征类型的词,根据不同行业,不同评分规则,对各个特征类型词设置阈值,例如,对于“速度”的阈值为0.3,“穿着”的阈值为0.2,“态度”的阈值为0.5,对各个状态词设置分值,例如“满意”的分值为100分,“不满意”的分值为0分,“一般”的分值为60分,因此,若对于“速度”、“穿着”和“态度”的评价分别是“一般”、“满意”和“满意”时,对应的满意度分值为0.3*60+0.2*100+0.5*100=88分,由此根据用户评价的语句换算成满意度的分值。
进一步的,当满意度分值计算完毕,将所述目标语句添加至初始数据集中,通过聚类算法,重新训练词典库和特征关系树,以对词典库和特征关系树进行优化。
另一方面,请参阅图10,本申请公开一种基于分词处理的评价装置,包括:
获取模块1000:被配置为执行获取目标语句,其中,所述目标语句为需要进行分词处理的语句信息;
评级模块2000:被配置为执行对所述目标语句进行评级处理,其中,所述评级处理为对所述目标语句按照预设的难易程度划分规则进行难易程度分级;
分词模块3000:被配置为执行根据所述评级处理的结果,从预设规则数据库中匹配分词处理规则,其中,所述预设规则数据库中根据目标语句的不同级别映射不同的分词规则;
评分模块4000:被配置为执行根据所匹配的分词处理规则对所述目标语句进行分词处理以得到针对该目标语句的满意度分值。
可选的,所述评级模块还包括:
判断模块:被配置为执行识别所述目标语句,并判断所述目标语句中是否包含歧义词库中的关键词,其中,所述歧义词库包括预设的带有歧义性质的关键词集合;
第一标识模块:被配置为执行当不包含所述歧义词库中的关键词时,将对应的目标语句标识为第一级语句;
第二标识模块:被配置为执行当包含所述歧义词库中的关键词时,将对应的目标语句标识为第二级语句。
可选的,所述分词模块包括:
第一映射模块:被配置为执行将所述第一级语句映射第一分词规则,其中,所述第一分词规则为通过第一神经网络模型对所述目标语句进行分词;
第二映射模块:被配置为执行将所述第二级语句映射第二分词规则,其中,所述第二分词规则为通过第二神经网络训练模型对所述目标语句进行分词。
可选的,所述第一映射模块包括:
第一特征识别模块:被配置为执行根据词典库对所述目标语句进行特征识别,其中,所述词典库为根据聚类算法生成的包括词语类型及其该类型映射的词语的集合;
第一构建模块:被配置为执行根据特征识别结果,构建特征关系树,其中,所述特征关系树为根据所识别的指定类型的词语之间的关联关系以树状分层形式对其进行罗列而形成的关系图谱;
第一处理模块:被配置为执行根据所述特征关系树对所述目标语句进行分词处理。
可选的,所述第二映射模块包括:
第二特征识别模块:被配置为执行根据词典库对所述目标语句进行特征识别,其中,所述词典库为根据聚类算法生成的包括词语类型及其该类型映射的词语的集合;
第二构建模块:被配置为执行根据特征识别结果,构建特征关系树,其中,所述特征关系树为根据所识别的指定类型的词语之间的关联关系以树状分层形式对其进行罗列而形成的关系图谱;
第二处理模块:被配置为执行根据所述特征关系树通过隐马尔可夫模型对所述目标语句进行分词处理。
可选的,所述第二处理模块还包括:
概率计算模块:被配置为执行通过所述特征关系树的关联关系,分别计算得到所述关系树结构中的父节点与子节点之间的词语转移概率、子节点中各个词语的生成概率以及所述目标语句中第一个词的类型出现概率值;
分词输出模块:根据所述父节点与子节点词语转移概率、子节点中各个词语的生成概率以及所述目标语句中第一个词的类型出现概率值输入隐马尔可夫模型中进行分析以进行分词。
可选的,所述评分模块包括:
分值获取模块:被配置为执行根据所述分词处理规则提取表征评价状态词的预设分值及所述评价状态词对应的类型的阈值;
分值计算模块:被配置为执行根据所述阈值和预设分值通过加权平均的方式获取得到满意度分值。
上述公开的基于分词处理的评价装置是基于分词处理的评价方法一一对应的装置,对于基于分词处理的评价装置的功能和应用此处不再赘述。
本发明实施例提供计算机设备基本结构框图请参阅图11。
该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种基于分词处理的评价方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种基于分词处理的评价方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
计算机设备通过接收关联的客户端发送的提示行为的状态信息,即关联终端是否开启提示以及贷款人是否关闭该提示任务。通过验证上述任务条件是否达成,进而向关联终端发送对应的预设指令,以使关联终端能够根据该预设指令执行相应的操作,从而实现了对关联终端的有效监管。同时,在提示信息状态与预设的状态指令不相同时,服务器端控制关联终端持续进行响铃,以防止关联终端的提示任务在执行一段时间后自动终止的问题。
本发明还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例所述基于分词处理的评价方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于分词处理的评价方法,其特征在于,包括:
获取目标语句,其中,所述目标语句为需要进行分词处理的语句信息;
对所述目标语句进行评级处理,其中,所述评级处理为对所述目标语句按照预设的难易程度划分规则进行难易程度分级;
根据所述评级处理的结果,从预设规则数据库中匹配分词处理规则,其中,所述预设规则数据库中根据目标语句的不同级别映射不同的分词规则;
根据所匹配的分词处理规则对所述目标语句进行分词处理以得到针对该目标语句的满意度分值。
2.根据权利要求1所述的基于分词处理的评价方法,其特征在于,所述对所述目标语句进行评级处理的方法包括:
识别所述目标语句,并判断所述目标语句中是否包含歧义词库中的关键词,其中,所述歧义词库包括预设的带有歧义性质的关键词集合;
当不包含所述歧义词库中的关键词时,将对应的目标语句标识为第一级语句;
当包含所述歧义词库中的关键词时,将对应的目标语句标识为第二级语句。
3.根据权利要求2所述的基于分词处理的评价方法,其特征在于,所述根据所述评级处理的结果,从预设规则数据库中匹配分词处理规则的方法包括:
将所述第一级语句映射第一分词规则,其中,所述第一分词规则为通过第一神经网络模型对所述目标语句进行分词;
将所述第二级语句映射第二分词规则,其中,所述第二分词规则为通过第二神经网络训练模型对所述目标语句进行分词。
4.根据权利要求3所述的基于分词处理的评价方法,其特征在于,所述通过第一神经网络模型对所述目标语句进行分词的方法包括:
根据词典库对所述目标语句进行特征识别,其中,所述词典库为根据聚类算法生成的包括词语类型及其该类型映射的词语的集合;
根据特征识别结果,构建特征,其中,所述特征关系树为根据所识别的指定类型的词语之间的关联关系以树状分层形式对其进行罗列而形成的关系图谱;
根据所述特征关系树对所述目标语句进行分词处理。
5.根据权利要求3所述的基于分词处理的评价方法,其特征在于,所述通过第二神经网络训练模型对所述目标语句进行分词的方法包括:
根据词典库对所述目标语句进行特征识别,其中,所述词典库为根据聚类算法生成的包括词语类型及其该类型映射的词语的集合;
根据特征识别结果,构建特征关系树,其中,所述特征关系树为根据所识别的指定类型的词语之间的关联关系以树状分层形式对其进行罗列而形成的关系图谱;
根据所述特征关系树通过隐马尔可夫模型对所述目标语句进行分词处理。
6.根据权利要求5所述的基于分词处理的评价方法,其特征在于,所述根据所述关联关系通过隐马尔可夫模型对所述目标语句进行分词处理的方法包括:
通过所述特征关系树的关联关系,分别计算得到所述关系树结构中的父节点与子节点之间的词语转移概率、子节点中各个词语的生成概率以及所述目标语句中第一个词的类型出现概率值;
根据所述父节点与子节点词语转移概率、子节点中各个词语的生成概率以及所述目标语句中第一个词的类型出现概率值输入隐马尔可夫模型中进行分析以进行分词。
7.根据权利要求1所述的基于分词处理的评价方法,其特征在于,所述根据所匹配的分词处理规则对所述目标语句进行分词处理以得到针对该目标语句的满意度分值的方法包括:
根据所述分词处理规则提取表征评价状态词的预设分值及所述评价状态词对应的类型的阈值;
根据所述阈值和预设分值通过加权平均的方式获取得到满意度分值。
8.一种基于分词处理的评价装置,其特征在于,包括:
获取模块:被配置为执行获取目标语句,其中,所述目标语句为需要进行分词处理的语句信息;
评级模块:被配置为执行对所述目标语句进行评级处理,其中,所述评级处理为对所述目标语句按照预设的难易程度划分规则进行难易程度分级;
分词模块:被配置为执行根据所述评级处理的结果,从预设规则数据库中匹配分词处理规则,其中,所述预设规则数据库中根据目标语句的不同级别映射不同的分词规则;
评分模块:被配置为执行根据所匹配的分词处理规则对所述目标语句进行分词处理以得到针对该目标语句的满意度分值。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述的基于分词处理的评价方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述的基于分词处理的评价方法的步骤。
CN201911280648.8A 2019-12-13 2019-12-13 基于分词处理的评价方法、装置、计算机设备及存储介质 Active CN111177402B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911280648.8A CN111177402B (zh) 2019-12-13 2019-12-13 基于分词处理的评价方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911280648.8A CN111177402B (zh) 2019-12-13 2019-12-13 基于分词处理的评价方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111177402A true CN111177402A (zh) 2020-05-19
CN111177402B CN111177402B (zh) 2023-09-22

Family

ID=70650347

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911280648.8A Active CN111177402B (zh) 2019-12-13 2019-12-13 基于分词处理的评价方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111177402B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667196A (zh) * 2020-06-22 2020-09-15 信阳农林学院 基于用户行为控制食品配方改进的方法、装置及设备
CN112528183A (zh) * 2020-12-16 2021-03-19 平安银行股份有限公司 基于大数据的网页组件布局方法、装置、电子设备及介质
CN114492426A (zh) * 2021-12-30 2022-05-13 北京百度网讯科技有限公司 子词切分方法、模型训练方法、装置和电子设备
CN116246288A (zh) * 2023-05-10 2023-06-09 浪潮电子信息产业股份有限公司 一种文本编码方法、模型训练方法、模型匹配方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402502A (zh) * 2011-11-24 2012-04-04 北京趣拿信息技术有限公司 用于搜索引擎的分词处理方法和装置
WO2015196909A1 (zh) * 2014-06-27 2015-12-30 北京奇虎科技有限公司 一种分词方法和装置
CN107273356A (zh) * 2017-06-14 2017-10-20 北京百度网讯科技有限公司 基于人工智能的分词方法、装置、服务器和存储介质
CN107391493A (zh) * 2017-08-04 2017-11-24 青木数字技术股份有限公司 一种舆情信息提取方法、装置、终端设备及存储介质
CN107918604A (zh) * 2017-11-13 2018-04-17 彩讯科技股份有限公司 一种中文的分词方法及装置
CN108073570A (zh) * 2018-01-04 2018-05-25 焦点科技股份有限公司 一种基于隐马尔可夫模型的词义消歧方法
CN108717406A (zh) * 2018-05-10 2018-10-30 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN108920453A (zh) * 2018-06-08 2018-11-30 医渡云(北京)技术有限公司 数据处理方法、装置、电子设备及计算机可读介质
CN109800307A (zh) * 2019-01-18 2019-05-24 深圳壹账通智能科技有限公司 产品评价的分析方法、装置、计算机设备及存储介质
CN110209767A (zh) * 2019-05-28 2019-09-06 重庆大学 一种用户画像构建方法
CN110457676A (zh) * 2019-06-26 2019-11-15 平安科技(深圳)有限公司 评价信息的提取方法及装置、存储介质、计算机设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402502A (zh) * 2011-11-24 2012-04-04 北京趣拿信息技术有限公司 用于搜索引擎的分词处理方法和装置
WO2015196909A1 (zh) * 2014-06-27 2015-12-30 北京奇虎科技有限公司 一种分词方法和装置
CN107273356A (zh) * 2017-06-14 2017-10-20 北京百度网讯科技有限公司 基于人工智能的分词方法、装置、服务器和存储介质
CN107391493A (zh) * 2017-08-04 2017-11-24 青木数字技术股份有限公司 一种舆情信息提取方法、装置、终端设备及存储介质
CN107918604A (zh) * 2017-11-13 2018-04-17 彩讯科技股份有限公司 一种中文的分词方法及装置
CN108073570A (zh) * 2018-01-04 2018-05-25 焦点科技股份有限公司 一种基于隐马尔可夫模型的词义消歧方法
CN108717406A (zh) * 2018-05-10 2018-10-30 平安科技(深圳)有限公司 文本情绪分析方法、装置及存储介质
CN108920453A (zh) * 2018-06-08 2018-11-30 医渡云(北京)技术有限公司 数据处理方法、装置、电子设备及计算机可读介质
CN109800307A (zh) * 2019-01-18 2019-05-24 深圳壹账通智能科技有限公司 产品评价的分析方法、装置、计算机设备及存储介质
CN110209767A (zh) * 2019-05-28 2019-09-06 重庆大学 一种用户画像构建方法
CN110457676A (zh) * 2019-06-26 2019-11-15 平安科技(深圳)有限公司 评价信息的提取方法及装置、存储介质、计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
冯秀珍;郝鹏;: "基于词性分析的产品评价信息挖掘" *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111667196A (zh) * 2020-06-22 2020-09-15 信阳农林学院 基于用户行为控制食品配方改进的方法、装置及设备
CN111667196B (zh) * 2020-06-22 2021-04-23 信阳农林学院 基于用户行为控制食品配方改进的方法、装置及设备
CN112528183A (zh) * 2020-12-16 2021-03-19 平安银行股份有限公司 基于大数据的网页组件布局方法、装置、电子设备及介质
CN112528183B (zh) * 2020-12-16 2023-08-18 平安银行股份有限公司 基于大数据的网页组件布局方法、装置、电子设备及介质
CN114492426A (zh) * 2021-12-30 2022-05-13 北京百度网讯科技有限公司 子词切分方法、模型训练方法、装置和电子设备
CN116246288A (zh) * 2023-05-10 2023-06-09 浪潮电子信息产业股份有限公司 一种文本编码方法、模型训练方法、模型匹配方法及装置
CN116246288B (zh) * 2023-05-10 2023-08-04 浪潮电子信息产业股份有限公司 一种文本编码方法、模型训练方法、模型匹配方法及装置

Also Published As

Publication number Publication date
CN111177402B (zh) 2023-09-22

Similar Documents

Publication Publication Date Title
CN110929030B (zh) 一种文本摘要和情感分类联合训练方法
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN111177402B (zh) 基于分词处理的评价方法、装置、计算机设备及存储介质
CN113591483A (zh) 一种基于序列标注的文档级事件论元抽取方法
CN109726745B (zh) 一种融入描述知识的基于目标的情感分类方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
JP7139626B2 (ja) フレーズ生成関係性推定モデル学習装置、フレーズ生成装置、方法、及びプログラム
CN110232395A (zh) 一种基于故障中文文本的电力系统故障诊断方法
CN113505200B (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN112131352A (zh) 一种网页文本类不良信息的检测方法与检测系统
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN113704416A (zh) 词义消歧方法、装置、电子设备及计算机可读存储介质
Liu et al. Open intent discovery through unsupervised semantic clustering and dependency parsing
CN114255096A (zh) 数据需求匹配方法和装置、电子设备、存储介质
CN115859980A (zh) 一种半监督式命名实体识别方法、系统及电子设备
CN111783464A (zh) 一种面向电力的领域实体识别方法、系统及存储介质
CN116757195B (zh) 一种基于提示学习的隐性情感识别方法
CN111191029B (zh) 基于监督学习和文本分类的ac构建方法
CN115186670B (zh) 一种基于主动学习的领域命名实体识别方法及系统
CN110377753A (zh) 基于关系触发词与gru模型的关系抽取方法及装置
CN115129818A (zh) 基于知识驱动多分类的情绪原因对提取方法及系统
CN114021658A (zh) 一种命名实体识别模型的训练方法、应用方法及其系统
CN114357166A (zh) 一种基于深度学习的文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant