CN108959253A - 核心短语的提取方法、装置及可读存储介质 - Google Patents

核心短语的提取方法、装置及可读存储介质 Download PDF

Info

Publication number
CN108959253A
CN108959253A CN201810689744.7A CN201810689744A CN108959253A CN 108959253 A CN108959253 A CN 108959253A CN 201810689744 A CN201810689744 A CN 201810689744A CN 108959253 A CN108959253 A CN 108959253A
Authority
CN
China
Prior art keywords
phrase
analysis method
comment information
core
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810689744.7A
Other languages
English (en)
Inventor
洪婉玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201810689744.7A priority Critical patent/CN108959253A/zh
Publication of CN108959253A publication Critical patent/CN108959253A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供的核心短语的提取方法、装置及可读存储介质,通过对评论信息使用至少两种短语分析方法进行处理,获得所述评论信息在采用每种短语分析方法时提取获得的至少一个短语;根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语;统计所述评论信息中得到任一候选短语的次数以及得到所述任一候选短语时所采用的短语分析方法,以确定核心短语的方式,可从大量的评论信息中准确挖掘和提取到有效的核心短语,为企业提升产品质量和服务质量提供了基础。

Description

核心短语的提取方法、装置及可读存储介质
技术领域
本发明涉及数据处理技术,尤其涉及一种核心短语的提取方法、装置及可读存储介质。
背景技术
随着信息时代的到来和互联网技术的发展,及时获取并分析用户对产品的反馈成为企业在提高产品质量和优化企业服务过程中并不缺少的环节。
在很多场景下,企业会通过各种渠道收集用户对服务或产品产生的反馈或建议等评论信息。但是,这些评论信息的数据量庞大,信息内容丰富,如何能够准确的挖掘到评论信息的核心短语成为企业为用户提升产品质量和服务质量时所需解决的重要技术问题。
发明内容
针对上述提及的如何能够准确的挖掘到评论信息的核心短语的技术问题,本发明提供了一种核心短语的提取方法、装置及可读存储介质。
一方面,本发明提供了一种核心短语的提取方法,包括:
对评论信息使用至少两种短语分析方法进行处理,获得所述评论信息在采用每种短语分析方法时提取获得的至少一个短语;;
根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语;
统计所述评论信息中得到任一候选短语的次数以及得到所述任一候选短语时所采用的短语分析方法,以确定核心短语。
在其中一种可选的实施方式中,所述短语分析方法包括情感分析方法;
当采用情感分析方法对所述评论信息进行处理时,所述核心短语的提取方法,具体包括:
对所述评论信息的文本进行分词处理,获得每条评论信息的多个分词;
利用汉语语言模型对各分词进行重组,获得多个重组的分词词组;
根据预设的情感词典,将具备情感属性的分词词组作为在采用情感分析方法时提取获得的至少一个短语;其中,所述情感词典包括各预设词组以及每个预设词组对应的情感属性;
相应的,所述根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语,具体包括:
根据所述各短语的情感属性,将情感属性为非中性情感的短语作为采用情感分析方法时得到的候选短语。
在其中一种可选的实施方式中,所述短语分析方法包括句法分析方法;
当采用句法分析方法对所述评论信息进行处理时,所述核心短语的提取方法,具体包括:
根据汉语语法对所述评论信息的文本进行分词处理,获得所述评论信息的多个分词和每个分词对应的语法属性;
利用汉语语言模型,对各分词进行重组以使各重组后的分词词组中包括至少一个语法属性为谓语的分词,所述各重组后的分词词组为作为在采用句法分析方法时提取获得的至少一个短语;
相应的,所述根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语,具体包括:
根据组成各短语的各分词的语法属性以及各语法属性的位置连接关系,确定采用句法分析方法时得到的候选短语。
在其中一种可选的实施方式中,所述短语分析方法包括序列化标注分析方法;
当采用序列化标注分析方法对所述评论信息进行处理时,所述核心短语的提取方法,具体包括:
利用预设的长短期记忆模型对所述评论信息的文本进行处理,获得所述评论信息的文本序列,所述文本序列包括文本中每个字的语义标注;
根据所述评论信息的文本序列中的每个字的语义标注,将具备语义信息的多个字所组成的语句作为在序列化标注分析方法时提取获得的短语;
相应的,所述根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同分析短语方法时得到的候选短语,具体包括:
根据短语的语义完整程度,对短语进行去噪处理,获得采用序列化标注分析方法时得到的候选短语。
在其中一种可选的实施方式中,所述根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理之前,还包括:
根据短语的字面特征对所述短语进行预处理,以使对每个处理后的短语进行相应的去噪处理;其中,所述字面特征包括短语长度、短语热度、短语构词法。
另一方面,本发明还提供了一种核心短语的提取装置,包括:
短语提取模块,用于对评论信息使用至少两种短语分析方法进行处理,获得所述评论信息在采用每种短语分析方法时提取获得的至少一个短语;
去噪模块,用于根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语;
核心短语处理模块,用于统计所述评论信息中得到任一候选短语的次数以及得到所述任一候选短语时所采用的短语分析方法,以确定核心短语。
在其中一种可选的实施方式中,所述短语提取模块包括情感分析方法提取单元、句法分析方法提取单元和序列化标注分析方法提取单元中的至少两种;
其中,所述情感分析方法提取单元用于对所述评论信息的文本进行分词处理,获得每条评论信息的多个分词;利用汉语语言模型对各分词进行重组,获得多个重组的分词词组;根据预设的情感词典,将具备情感属性的分词词组作为在采用情感分析方法时提取获得的至少一个短语;其中,所述情感词典包括各预设词组以及每个预设词组对应的情感属性;相应的,所述去噪模块具体用于根据所述各短语的情感属性,将情感属性为非中性情感的短语作为采用情感分析方法时得到的候选短语;
所述句法分析方法提取单元用于根据汉语语法对所述评论信息的文本进行分词处理,获得所述评论信息的多个分词和每个分词对应的语法属性;利用汉语语言模型,对各分词进行重组以使各重组后的分词词组中包括至少一个语法属性为谓语的分词,所述各重组后的分词词组为作为在采用句法分析方法时提取获得的至少一个短语;相应的,所述去噪模块具体用于根据组成各短语的各分词的语法属性以及各语法属性的位置连接关系,确定采用句法分析方法时得到的候选短语;
所述序列化标注分析方法提取单元用于利用预设的长短期记忆模型对所述评论信息的文本进行处理,分别获得所述评论信息的文本序列,所述文本序列包括文本中每个字的语义标注;根据各评论信息的文本序列中的每个字的语义标注,将具备语义信息的多个字所组成的语句作为在序列化标注分析方法时提取获得的短语;相应的,所述去噪模块具体用于根据短语的语义完整程度,对短语进行去噪处理,获得采用序列化标注分析方法时得到的候选短语。
在其中一种可选的实施方式中,该核心短语的提取装置还包括预处理模块;
所述预处理模块用于在去噪模块根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理之前,根据短语的字面特征对所述短语进行预处理,以使对每个处理后的短语进行相应的去噪处理;其中,所述字面特征包括短语长度、短语热度、短语构词法。
再一方面,本发明提供了一种核心短语的提取装置,包括:存储器、与所述存储器连接的处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,
所述处理器运行所述计算机程序时执行权利要求1-5任一项所述的方法。
最后一方面,本发明提供了一种可读存储介质,包括程序,当其在终端上运行时,使得终端执行权利要求1-5任一项所述的方法。
本发明提供的核心短语的提取方法、装置及可读存储介质,通过对评论信息使用至少两种短语分析方法进行处理,获得所述评论信息在采用每种短语分析方法时提取获得的至少一个短语;根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语;统计所述评论信息中得到任一候选短语的次数以及得到所述任一候选短语时所采用的短语分析方法,以确定核心短语的方式,可从大量的评论信息中准确挖掘和提取到有效的核心短语,为企业提升产品质量和服务质量提供了基础。
附图说明
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
图1为本发明实施例一提供的一种核心短语的提取方法的流程示意图;
图2为本发明实施例二提供的一种核心短语的提取方法的流程示意图;
图3为本发明实施例三提供的一种核心短语的提取装置的结构示意图;
图4为本发明实施例四提供的一种核心短语的提取装置的结构示意图;
图5为本发明实施例五提供的一种核心短语的提取装置的结构示意图。
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
随着信息时代的到来和互联网技术的发展,及时获取并分析用户对产品的反馈成为企业在提高产品质量和优化企业服务过程中并不缺少的环节。
在很多场景下,企业会通过各种渠道收集用户对服务或产品产生的反馈或建议等评论信息。举例来说,针对于打车业务来说,乘客或司机均可在完成一次出行订单之后对该出行过程进行相应的反馈,这些反馈中可能包含有一些具备挖掘意义的核心词语,如“司机态度差”“恶意刷单”“拒接单”等等,根据这些核心词语,企业可便于对产品当前存在的问题进行分析,也为产品的优化改进提供方向。但是,一般来说,在反馈中还包含有大量的非核心词语,如“今天”“我认为”等等,这些词语不具备挖掘意义,对后续的优化改进的贡献不大。
因此,如何在大量包括评论信息的反馈中,准确提取到能够为产品的改进和优化提供贡献的核心短语成为企业所需解决的重要技术问题。
针对上述提及的如何能够准确的挖掘到评论信息的核心短语的技术问题,本发明提供了一种核心短语的提取方法、装置及可读存储介质。需要说明的是,本申请提供的核心短语的提取方法、装置及可读存储介质可运用在广泛的存在评论信息或反馈信息的应用场景中,这些应用场景包括但不限制为:网上购物场景、打车场景、外卖场景、服务点评场景等等。
图1为本发明实施例一提供的一种核心短语的提取方法的流程示意图。
如图1所示,该提取方法包括:
步骤101、对评论信息使用至少两种短语分析方法进行处理,获得所述评论信息在采用每种短语分析方法时提取获得的至少一个短语。
步骤102、根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语。
步骤103、统计所述评论信息中得到任一候选短语的次数以及得到所述任一候选短语时所采用的短语分析方法,以确定核心短语。
需要说明的是,本发明提供的核心短语的提取方法的执行主体具体可为核心短语的提取装置,该提取装置可通过硬件和/或软件的方式实现。一般可集成于企业的线上平台所基于的云端服务器中,与线上平台所基于的存放有各类数据库的数据服务器配合使用,此外,提取装置所基于的服务器可与数据服务器为同一服务器,或者为隶属于同一服务器集群的不同服务器,本发明对此均不进行限制。
具体来说,本发明提供了一种可精准挖掘评论信息中核心短语的方法。其中,在本实施方式中对评论信息的获取方式不进行限定,但是,无论是通过哪种渠道获取的评论信息,在对评论信息的核心短语的进行提取之前,需要将评论信息转化为文本,以便提取。也就是说,当获取的评论信息为语音信息或图片信息时,还需将评论信息转换为文本,以便于短语的提取,其中的转换方式可采用现有技术,本实施方式对此不进行限制。
随后,可采用多种短语分析方法分别对获取的每条评论信息进行处理,以获得每条评论信息在每种短语分析方法下提取到的短语。其中,采用每种短语分析方法对评论信息进行处理的过程是相对独立的,其可依次进行也可同时进行,本实施方式对此不进行限制。而为了保证挖掘的核心短语的准确性,在本发明中采用了多种短语分析方法对评论信息进行处理,这些短语分析方法包括但不限于情感分析方法、句法分析方法和序列化标注分析方法,无论是哪种短语分析方法,其均可对评论信息中的文本的某些属性特征进行分析,并根据分析获得属性特征提取相应的短语。
以打车场景下收集到的乘客对订单的评论信息为例,如该评论信息为“早上上班提前打了车,上车前司机绕了好远的路才接到我,这个时候他在还没到达约定地点,平台上面就说司机已经到达了约定地点,然后五分钟过去了还没接到我,平台上面显示我已经迟到了请联系司机”。
针对该评论信息采用多种短语分析方法进行分析所提取到的短语会存在不同,如:在情感分析方法提取到的短语可能为“绕了好远的路”;在句法分析方法提取到的短语可能为“上班提前打了车”,“司机绕了好远的路才接到我”,“他在还没到达约定地点”“平台上面就说司机已经到达”“平台上面显示我已经迟到了”“请联系司机”;在序列化标注分析方法提取到的短语可能为“提前打了车”,“司机绕了好远的路”“没到达约定地点”“已经到达了约定地点”“没接到我”“迟到了请联系司机”。通过以上实例可知,在采用不同的短语分析方法对同一评论信息进行处理时,将会提取得到不同的短语。
随后,可根据提取获得每个短语时的短语分析方法类型,对每个短语进行相应的去噪处理,以获得每条评论信息在采用不同短语分析方法时得到的候选短语。具体来说,由于不同短语分析方法对同一评论信息处理时的分析侧重点的不同,在本实施方式中,针对于由获取到的每个短语的对应的短语分析方法,对每个短语采用相应的去噪处理,以获取同一评论信息在采用不同短语分析方法时进行挖掘所得到的精准的候选短语。举例来说,在情感分析方法中,情感较为强烈的短语应被保留作为候选短语,因此,可针对情感是否强烈对采用情感分析方法进行提取获得的短语进行去噪处理;在句法分析方法中,符合特定句法构成的短语应被保留作为候选短语,因此,针对短语中的句法构成对采用句法分析方法进行提取获得的短语进行去噪处理。当然,针对不同的短语分析方法采用的具体的去噪方法还可采用其他方式,本实施方式对此不进行限制。
以前述的序列化标注分析方法中提取到的短语“司机绕了好远的路”为例,在该短语中“好”“了”“的”均为可去噪的字,因此对该短语进行去噪后获得的候选短语为“司机绕远路”。
最后,可统计评论信息中得到每个候选短语的次数以及得到每个候选短语时所采用的短语分析方法,并根据统计结果确定核心短语。
具体来说,由于采用了多种短语分析方法,不同短语分析方法对应的分析侧重点将会存在差异,因此,一方面可结合核心短语在提升产品过程中的侧重点对不同短语分析方法获得的候选短语进行侧重选择,即,可统计得到每一个候选短语所采用的短语分析方法,如上述的“司机绕远路”是通过序列化标注分析方法获取的,其也可能是情感分析方法获取的;另一方面,可结合核心短语在各评论信息中出现的次数对候选短语进行侧重选择,即,可统计在完成对全部评论信息的分析和去噪之后,得到“司机绕远路”这一候选短语的次数。然后,可结合前述两个方面的统计结果确定核心短语。进一步的,还可采用知识图谱的方式对得到的核心短语进行展示,以便于其相关人员进行查看。
本发明实施例一提供的核心短语的提取方法,通过采用对评论信息使用至少两种短语分析方法进行处理,获得所述评论信息在采用每种短语分析方法时提取获得的至少一个短语;根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语;计所述评论信息中得到任一候选短语的次数以及得到所述任一候选短语时所采用的短语分析方法,以确定核心短语,可从大量的评论信息中准确挖掘和提取到有效的核心短语,为企业提升产品质量和服务质量提供了基础。
为了更好的描述本发明提供的场景信息推送方法,在实施例一的基础上,
图2为本发明实施例二提供的一种核心短语的提取方法的流程示意图。
如图2所示,该提取方法包括:
步骤201、采集获取评论信息。
步骤202、对评论信息使用至少两种短语分析方法进行处理,获得所述评论信息在采用每种短语分析方法时提取获得的至少一个短语。
其中,所述至少两种短语分析方法包括情感分析方法、句法分析方法和序列化标注分析方法。
步骤203、根据短语的字面特征对所述短语进行预处理,以使对每个处理后的短语进行相应的去噪处理。
其中,所述字面特征包括短语长度、短语热度、短语构词法。
步骤204、根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语。
步骤205、统计所述评论信息中得到任一候选短语的次数以及得到所述任一候选短语时所采用的短语分析方法,以确定核心短语。
具体来说,在实施例一的基础上,为了进一步描述本发明提供的核心短语的提取方法,本实施例二提供了一种核心短语的提取方法的具体实施方式。与实施例一类似的是,无论是通过哪种渠道获取的评论信息,在对评论信息的核心短语的进行提取之前,需要将评论信息转化为文本,以便提取。也就是说,当获取的评论信息为语音信息或图片信息时,还需将评论信息转换为文本,以便于短语的提取,其中的转换方式可采用现有技术,本实施方式对此不进行限制。
与实施例一不同的是,本实施例二中提供了三种不同的短语分析方法对评论信息进行处理,以提取获得相应的短语。当然,在其他实时方式中,还仅采用三种不同的短语分析方法中的任意两种,或采用其他可用于对评论信息的文本的属性特征进行分析的短语分析方法对评论信息进行处理,以提取短语。
在本实施方式中,当采用情感分析方法对各评论信息进行处理时,所述获得所述评论信息在采用每种短语分析方法时提取获得的至少一个短语,具体包括:
对评论信息的文本进行分词处理,获得评论信息的多个分词;利用汉语语言模型对各分词进行重组,获得多个重组的分词词组;根据预设的情感词典,将具备情感属性的分词词组作为在采用情感分析方法时提取获得的至少一个短语;其中,所述情感词典包括各预设词组以及每个预设词组对应的情感属性。
具体来说,在该方法中,首先,对评论信息进行分词处理,以“今天司机态度很好”为例。对该评论信息进行分词处理以得到“今天”“司机”“态度”“很”“好”这几个分词。
随后,利用语言模型,如N-Gram的汉语语言模型对这些分词进行重组,其中,汉语语言模型在对分词进行重组过程中,是利用上下文相邻分词间的搭配信息实现的。进一步的,在利用N-Gram汉语语言模型对分词进行重组时,可采用二元的分词重组方式,即得到“今天司机”“司机态度”“态度很”“很好”的重组的分词词组;还可采用三元的分词重组方式,即得到“今天司机态度”“司机态度很”“态度很好”的重组的分词词组。
再后,利用情感词典确定重组的分词词组的情感属性,其中需要说明的是,情感词典为预设的,其中包括各预设词组以及每个预设词组对应的情感属性,预设词组可为相关技术人员根据自身经验先行设置的,也可为根据情感分析方法在获取短语时的历史结果进行设置。此外,在利用该情感词典对重组的分词词组进的情感属性进行确定时,一般是采用匹配的方式实现的,即当重组的分词词组与词典中预设词组为相同词组或同义词组时,则可确定该重组的分词词组的情感属性。因此,在一些情况下,重组的分词词组在词典中无法找到与之相同或同义的预设词组,此时,这些重组的分词词组将不被作为短语进行后续处理。也就是说,在利用情感词典确定重组的分词词组的情感属性的过程中,仅将具备情感属性的分词词组作为在采用情感分析方法时提取获得的至少一个短语。
当获得短语之后,还将采用与情感分析方法对应的去噪处理方式对这些短语进行去噪,以进一步精选得到可作为核心短语的候选短语。具体来说,可根据所述各短语的情感属性,将情感属性为非中性情感的短语作为采用情感分析方法时得到的候选短语。
一般来说,情感属性包括正向情感、负向情感和中性情感。举例来说,情感属性为正向情感的短语可为“服务很好”“态度很棒”等等,而情感属性为负向情感的短语可为“不高兴”“态度恶劣”等等,其他短语则可中性情感,而情感属性为正向情感和负向情感的短语,在提高产品质量和服务质量方面更具备优势。因此,在该去噪过程中,可直接将情感属性为正向情感和负向情感的短语作为候选短语,以便进一步处理。
当采用句法分析方法对各评论信息进行处理时,所述获得评论信息在采用每种短语分析方法时提取获得的至少一个短语,具体包括:
根据汉语语法对评论信息的文本进行分词处理,获得评论信息的多个分词和每个分词对应的语法属性;利用汉语语言模型,对各分词进行重组以使各重组后的分词词组中包括至少一个语法属性为谓语的分词,所述各重组后的分词词组为作为在采用句法分析方法时提取获得的至少一个短语。
具体来说,在该方法中,首先,对汉语语法对各评论信息的文本进行分词处理,以“司机来晚了”为例,按照汉语语法对该文本进行分词获得的结果为“司机(主语)”“来(谓语)”“晚了(补语)”。
随后,与前述的情感分析方法中的重组类似的是,可利用语言模型,如N-Gram的汉语语言模型对这些分词进行重组;而不同的是,在句法分析方法中,需要重点关注其中的谓语,即找到语法属性为谓语的分词,并以该分词为重组的中心,将由该分词以及其相邻的若干分词的组成的分词词组作为短语,即采用二元的分词重组方式可得到“司机来(主语+谓语)”“来晚了(谓语+补语)”,采用三元的分词重组方式可得到“司机来晚了(主语+谓语+补语)”。
当获得短语之后,还将采用与句法分析方法对应的去噪处理方式对这些短语进行去噪,以进一步精选得到可作为核心短语的候选短语。具体来说,根据组成各短语的各分词的语法属性以及各语法属性的位置连接关系,确定采用句法分析方法时得到的候选短语。
一般来说,汉语中每个词在一句话中的语法属性是固定的,而当一句话中的多个词采用某一些固定结构的语法属性进行表达时,其能表达的意思较为完整,如主语+谓语+宾语,或,主语+谓语+补语等等。因此,利用这一汉语语法特性,可对分析获得的以谓语为中心的短语进行去噪处理,即根据组成各短语的各分词的语法属性以及各语法属性的位置连接关系,确定采用句法分析方法时得到的候选短语,如,将符合主语+谓语+补语结构的“司机来晚了(主语+谓语+补语)”作为候选短语。
进一步的,在本实施方式中,为了更加精准的提取候选短语,还可结合各分词的语义信息对候选短语进行提取,例如,设置一些关键动词,当短语中谓语部分的分词与这些关键动词匹配时,可将该短语作为候选短语,如当确定“司机来晚了(主语+谓语+补语)”符合的主语+谓语+补语的结构基础上,判断获知其中的谓语“来”与预设的关键动词匹配,此时,可直接将该“司机来晚了(主语+谓语+补语)”作为候选短语;而当确定“司机喝水(主语+谓语+宾语)”符合主语+谓语+宾语的结构基础上,判断获知其中的谓语“喝”不属于预设的关键动词,此时,可将该“司机喝水(主语+谓语+宾语)”不作为候选短语。其中,预设的关键词可为技术人员根据经验设置的,也可为根据历史分析结果确定的。因此,通过采用与句法分析方法对应的去噪处理方式对这些短语进行去噪,可得到相应的候选短语以便进一步处理。
当采用序列化标注分析方法对各评论信息进行处理时,所述获得各评论信息在采用每种短语分析方法时提取获得的至少一个短语,包括:
利用预设的长短期记忆模型对评论信息的文本进行处理,分别获得评论信息的文本序列,所述文本序列包括文本中每个字的语义标注;根据各评论信息的文本序列中的每个字的语义标注,将具备语义信息的多个字所组成的语句作为在序列化标注分析方法时提取获得的短语。
具体来说,在该方法中,可利用训练完毕的神经网络模型对评论信息的文本进行处理,以获得相应的文本序列。长短期记忆(Long Short-Term Memory,简称LSTM)模型便是可用于实现上述的文本序列获取的其中一种模型。可知的是,LSTM模型会根据预设的语料库对模型的算法逻辑进行训练优化,并按照训练完毕的算法逻辑对文本中的每个字进行语义标注。其中,语料库的获取可通过前述的情感分析方法和句法分析方法对历史评论信息进行处理获得。同时,本实施方式中的语义标注的类型可包括“B(词首)”“I(词中)”“E(词尾)”“O(不是词的组成部分)”以及“N(词中可忽略部分)”。
举例来说,针对于“今天司机态度很好”这一评论信息,经过LSTM模型的处理,得到的结果为“今(O)”“天(O)”“司(O)”“机(O)”“态(B)”“度(I)”“很(N)”“好(E)”,即文本“今天司机态度很好”的文本序列为“OOOOBINE”。随后,可根据该文本序列得到序列为“BINE”的短语“态度很好”。特别的,在本申请中语义标注的类型“N”所表达的含义为“属于词的一部分,但属于可忽略的对语义贡献不大的字”,因此,在利用本实施方式所述的LSTM模型提取短语时,可根据实际需求提取获得更为精简的短语文本序列为“BIE”的短语“态度好”,即将语义标注的类型为“N”的字进行跳字处理。当然,也可同时保留文本序列得到序列为“BINE”的短语“态度很好”以及短语文本序列为“BIE”的短语“态度好”,以供后续使用。此外,还需要说明的是,LSTM模型的算法可根据每一次分析得到的结果进行再学习和再训练,因此,利用该方法得到的短语的核心度已经足够高,可直接作为候选短语使用。
当然,更优的,当获得短语之后,还将采用与序列化标注分析方法对应的去噪处理方式对这些短语进行进一步优化,以得到可作为核心短语的候选短语。具体来说,根据短语的语义完整程度,对短语进行去噪处理,获得采用序列化标注分析方法时得到的候选短语。举例来说,前述得到的“态度很好”以及“态度好”的语义完整程度均较高,可作为候选短语;而若得到的短语为“司机打了”,此时,由于其语义不够完整,仅根据该短语无法获知该短语想要表达语义为“司机打人”还是“司机打表”,因此,需要对该短语进行去噪处理,如不将其做为候选短语进行后续处理。
之后,与实施例一相似的是,可统计评论信息中得到每个候选短语的次数以及得到每个候选短语时所采用的短语分析方法,并根据统计结果确定核心短语,本实施例二对此不进行赘述。
此外,还需要说明的是,在本实施例二中,所述根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理之前,还包括:根据短语的字面特征对所述短语进行预处理,以使对每个处理后的短语进行相应的去噪处理;其中,所述字面特征包括短语长度、短语热度、短语构词法。
也就是说,在根据不同的短语分析方法获取短语之后,为了提高处理速度,可在去噪处理之前对这些短语进行预处理,并将预处理之后的短语作为去噪处理的对象。其中预处理包括但不限于:根据短语长度对短语进行长度缩减,根据短语在语义库中的短语热度对短语进行处理,根据短语构词法对短语进行补全或删除;根据预设的黑名单列表排除短语中的敏感词;根据语言模型得分判断短语是否为可作为语言的语素等等。
本实施例二提供的了一种核心短语的提取方法,在实施例一的基础上,本实施例二提供了三种可实现的短语分析方法以及相应的处理方式,通过本实施例二提供的核心短语的提取方法,能够从大量的评论信息中更加准确挖掘和提取到有效的核心短语,为企业提升产品质量和服务质量提供了基础。
图3为本发明实施例三提供的一种核心短语的提取装置的结构示意图,如图3所示,该核心短语的提取装置包括:
短语提取模块10,用于对评论信息使用至少两种短语分析方法进行处理,获得所述评论信息在采用每种短语分析方法时提取获得的至少一个短语;
去噪模块20,用于根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语;
核心短语处理模块30,用于统计所述评论信息中得到任一候选短语的次数以及得到所述任一候选短语时所采用的短语分析方法,以确定核心短语。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程以及相应的有益效果,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例三提供的核心短语的提取装置,通过对评论信息使用至少两种短语分析方法进行处理,获得所述评论信息在采用每种短语分析方法时提取获得的至少一个短语;根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语;统计所述评论信息中得到任一候选短语的次数以及得到所述任一候选短语时所采用的短语分析方法,以确定核心短语的方式,可从大量的评论信息中准确挖掘和提取到有效的核心短语,为企业提升产品质量和服务质量提供了基础。
为了进一步描述本发明提供的核心短语的提取装置,在图3所示结构的基础上,本发明实施例四中的短语提取模块10包括情感分析方法提取单元、句法分析方法提取单元和序列化标注分析方法提取单元中的至少两种。
为了更为清楚的解释本实施例所示结构,图4为本发明实施例四提供的一种核心短语的提取装置的结构示意图,在该实施方式中,以短语提取模块10同时包括情感分析方法提取单元11、句法分析方法提取单元12和序列化标注分析方法提取单元13这三种处理单元为例进行说明。当然,在其他实施方式中,还可仅包括上述三种处理单元中的任意两种处理单元,或包括采用其他短语分析法的处理单元。
如图4所示,该核心短语的提取装置包括:
采集模块40,用于采集获取评论信息。
情感分析方法提取单元11对所述评论信息的文本进行分词处理,获得每条评论信息的多个分词;利用汉语语言模型对各分词进行重组,获得多个重组的分词词组;根据预设的情感词典,将具备情感属性的分词词组作为在采用情感分析方法时提取获得的至少一个短语;其中,所述情感词典包括各预设词组以及每个预设词组对应的情感属性;
句法分析方法提取单元12用于用于根据汉语语法对所述评论信息的文本进行分词处理,获得所述评论信息的多个分词和每个分词对应的语法属性;利用汉语语言模型,对各分词进行重组以使各重组后的分词词组中包括至少一个语法属性为谓语的分词,所述各重组后的分词词组为作为在采用句法分析方法时提取获得的至少一个短语;
序列化标注分析方法提取单元13用于利用预设的长短期记忆模型对所述评论信息的文本进行处理,分别获得所述评论信息的文本序列,所述文本序列包括文本中每个字的语义标注;根据各评论信息的文本序列中的每个字的语义标注,将具备语义信息的多个字所组成的语句作为在序列化标注分析方法时提取获得的短语;
去噪模块20用于根据所述各短语的情感属性,将情感属性为非中性情感的短语作为采用情感分析方法时得到的候选短语;还用于根据组成各短语的各分词的语法属性以及各语法属性的位置连接关系,确定采用句法分析方法时得到的候选短语;还用于根据短语的语义完整程度,对短语进行去噪处理,获得采用序列化标注分析方法时得到的候选短语。
核心短语处理模块30,用于统计所述评论信息中得到任一候选短语的次数以及得到所述任一候选短语时所采用的短语分析方法,以确定核心短语。
优选的,还包括预处理模块。该所述预处理模块用于在去噪模块根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理之前,根据短语的字面特征对所述短语进行预处理,以使对每个处理后的短语进行相应的去噪处理;其中,所述字面特征包括短语长度、短语热度、短语构词法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程以及相应的有益效果,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例四提供的核心短语的提取装置,通过采用分别采用至少两种分析方法对各评论信息进行处理,获得各评论信息在采用每种分析方法时提取获得的至少一个短语;其中,所述至少两种分析方法包括情感分析方法、句法分析方法和序列化标注分析方法;根据提取获得每个短语时的分析方法类型,对每个短语进行相应的去噪处理,以获得每条评论信息在采用不同分析方法时得到的候选短语;统计各评论信息中得到每个候选短语的次数以及得到每个候选短语时所采用的分析方法类型,并根据统计结果确定核心短语的方式,可从大量的评论信息中准确挖掘和提取到有效的核心短语,为企业提升产品质量和服务质量提供了基础。
图5为本发明实施例五提供的一种核心短语的提取装置的结构示意图。如图5所示,该终端包括:存储器41、处理器42及存储在存储器41上并可在处理器42上运行的计算机程序,处理器42运行计算机程序时执行上述任一实施例的方法。
本发明还提供一种可读存储介质,包括程序,当其在终端上运行时,使得终端执行上述任一实施例的方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种核心短语的提取方法,其特征在于,包括:
对评论信息使用至少两种短语分析方法进行处理,获得所述评论信息在采用每种短语分析方法时提取获得的至少一个短语;
根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语;
统计所述评论信息中得到任一候选短语的次数以及得到所述任一候选短语时所采用的短语分析方法,以确定核心短语。
2.根据权利要求1所述的核心短语的提取方法,其特征在于,所述短语分析方法包括情感分析方法;
当采用情感分析方法对所述评论信息进行处理时,所述核心短语的提取方法,具体包括:
对所述评论信息的文本进行分词处理,获得每条评论信息的多个分词;
利用汉语语言模型对各分词进行重组,获得多个重组的分词词组;
根据预设的情感词典,将具备情感属性的分词词组作为在采用情感分析方法时提取获得的至少一个短语;其中,所述情感词典包括各预设词组以及每个预设词组对应的情感属性;
相应的,所述根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语,具体包括:
根据所述各短语的情感属性,将情感属性为非中性情感的短语作为采用情感分析方法时得到的候选短语。
3.根据权利要求1所述的核心短语的提取方法,其特征在于,所述短语分析方法包括句法分析方法;
当采用句法分析方法对所述评论信息进行处理时,所述核心短语的提取方法,具体包括:
根据汉语语法对所述评论信息的文本进行分词处理,获得所述评论信息的多个分词和每个分词对应的语法属性;
利用汉语语言模型,对各分词进行重组以使各重组后的分词词组中包括至少一个语法属性为谓语的分词,所述各重组后的分词词组为作为在采用句法分析方法时提取获得的至少一个短语;
相应的,所述根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语,具体包括:
根据组成各短语的各分词的语法属性以及各语法属性的位置连接关系,确定采用句法分析方法时得到的候选短语。
4.根据权利要求1所述的核心短语的提取方法,其特征在于,所述短语分析方法包括序列化标注分析方法;
当采用序列化标注分析方法对所述评论信息进行处理时,所述核心短语的提取方法,具体包括:
利用预设的长短期记忆模型对所述评论信息的文本进行处理,获得所述评论信息的文本序列,所述文本序列包括文本中每个字的语义标注;
根据所述评论信息的文本序列中的每个字的语义标注,将具备语义信息的多个字所组成的语句作为在序列化标注分析方法时提取获得的短语;
相应的,所述根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同分析短语方法时得到的候选短语,具体包括:
根据短语的语义完整程度,对短语进行去噪处理,获得采用序列化标注分析方法时得到的候选短语。
5.根据权利要求1-4任一项所述的核心短语的提取方法,其特征在于,所述根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理之前,还包括:
根据短语的字面特征对所述短语进行预处理,以使对每个处理后的短语进行相应的去噪处理;其中,所述字面特征包括短语长度、短语热度、短语构词法。
6.一种核心短语的提取装置,其特征在于,包括:
短语提取模块,用于对评论信息使用至少两种短语分析方法进行处理,获得所述评论信息在采用每种短语分析方法时提取获得的至少一个短语;
去噪模块,用于根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理,以获得对所述评论信息采用不同短语分析方法时得到的候选短语;
核心短语处理模块,用于统计所述评论信息中得到任一候选短语的次数以及得到所述任一候选短语时所采用的短语分析方法,以确定核心短语。
7.根据权利要求6所述的核心短语的提取装置,其特征在于,所述短语提取模块包括情感分析方法提取单元、句法分析方法提取单元和序列化标注分析方法提取单元中的至少两种;
其中,所述情感分析方法提取单元用于对所述评论信息的文本进行分词处理,获得每条评论信息的多个分词;利用汉语语言模型对各分词进行重组,获得多个重组的分词词组;根据预设的情感词典,将具备情感属性的分词词组作为在采用情感分析方法时提取获得的至少一个短语;其中,所述情感词典包括各预设词组以及每个预设词组对应的情感属性;相应的,所述去噪模块具体用于根据所述各短语的情感属性,将情感属性为非中性情感的短语作为采用情感分析方法时得到的候选短语;
所述句法分析方法提取单元用于根据汉语语法对所述评论信息的文本进行分词处理,获得所述评论信息的多个分词和每个分词对应的语法属性;利用汉语语言模型,对各分词进行重组以使各重组后的分词词组中包括至少一个语法属性为谓语的分词,所述各重组后的分词词组为作为在采用句法分析方法时提取获得的至少一个短语;相应的,所述去噪模块具体用于根据组成各短语的各分词的语法属性以及各语法属性的位置连接关系,确定采用句法分析方法时得到的候选短语;
所述序列化标注分析方法提取单元用于利用预设的长短期记忆模型对所述评论信息的文本进行处理,分别获得所述评论信息的文本序列,所述文本序列包括文本中每个字的语义标注;根据各评论信息的文本序列中的每个字的语义标注,将具备语义信息的多个字所组成的语句作为在序列化标注分析方法时提取获得的短语;相应的,所述去噪模块具体用于根据短语的语义完整程度,对短语进行去噪处理,获得采用序列化标注分析方法时得到的候选短语。
8.根据权利要求6或7所述的核心短语的提取装置,其特征在于,还包括预处理模块;
所述预处理模块用于在去噪模块根据所述提取获得的至少一个短语对应的短语分析方法,对所述提取获得的至少一个短语进行相应的去噪处理之前,根据短语的字面特征对所述短语进行预处理,以使对每个处理后的短语进行相应的去噪处理;其中,所述字面特征包括短语长度、短语热度、短语构词法。
9.一种核心短语的提取装置,其特征在于,包括:存储器、与所述存储器连接的处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,
所述处理器运行所述计算机程序时执行权利要求1-5任一项所述的方法。
10.一种可读存储介质,其特征在于,包括程序,当其在终端上运行时,使得终端执行权利要求1-5任一项所述的方法。
CN201810689744.7A 2018-06-28 2018-06-28 核心短语的提取方法、装置及可读存储介质 Pending CN108959253A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810689744.7A CN108959253A (zh) 2018-06-28 2018-06-28 核心短语的提取方法、装置及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810689744.7A CN108959253A (zh) 2018-06-28 2018-06-28 核心短语的提取方法、装置及可读存储介质

Publications (1)

Publication Number Publication Date
CN108959253A true CN108959253A (zh) 2018-12-07

Family

ID=64487796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810689744.7A Pending CN108959253A (zh) 2018-06-28 2018-06-28 核心短语的提取方法、装置及可读存储介质

Country Status (1)

Country Link
CN (1) CN108959253A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516255A (zh) * 2019-08-30 2019-11-29 广州华多网络科技有限公司 一种角色姓名提取方法及系统
CN113779973A (zh) * 2020-06-09 2021-12-10 杭州晨熹多媒体科技有限公司 一种文本数据处理方法及其装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102651719A (zh) * 2011-02-28 2012-08-29 国际商业机器公司 用于在消息交互环境中跟踪消息话题的方法和设备
CN105205699A (zh) * 2015-09-17 2015-12-30 北京众荟信息技术有限公司 基于酒店点评的用户标签和酒店标签匹配方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102651719A (zh) * 2011-02-28 2012-08-29 国际商业机器公司 用于在消息交互环境中跟踪消息话题的方法和设备
CN105205699A (zh) * 2015-09-17 2015-12-30 北京众荟信息技术有限公司 基于酒店点评的用户标签和酒店标签匹配方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110516255A (zh) * 2019-08-30 2019-11-29 广州华多网络科技有限公司 一种角色姓名提取方法及系统
CN113779973A (zh) * 2020-06-09 2021-12-10 杭州晨熹多媒体科技有限公司 一种文本数据处理方法及其装置

Similar Documents

Publication Publication Date Title
CN108829682B (zh) 计算机可读存储介质、智能问答方法及智能问答装置
CN110717018A (zh) 一种基于知识图谱的工业设备故障维修问答系统
CN108710647B (zh) 一种用于聊天机器人的数据处理方法及装置
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN114722839B (zh) 人机协同对话交互系统及方法
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
CN111966796B (zh) 问答对提取方法、装置、设备及可读存储介质
CN108733647B (zh) 一种基于高斯分布的词向量生成方法
CN111209363B (zh) 语料数据处理方法、装置、服务器和存储介质
CN110362819A (zh) 基于卷积神经网络的文本情感分析方法
CN108710704A (zh) 对话状态的确定方法、装置、电子设备及存储介质
CN115470338B (zh) 一种基于多路召回的多场景智能问答方法和系统
CN109033073B (zh) 基于词汇依存三元组的文本蕴含识别方法及装置
CN114416942A (zh) 一种基于深度学习的自动化问答方法
CN111738018A (zh) 一种意图理解方法、装置、设备及存储介质
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN116166688A (zh) 基于自然语言交互的业务数据检索方法、系统及处理设备
CN110309513B (zh) 一种文本依存分析的方法和装置
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN108959253A (zh) 核心短语的提取方法、装置及可读存储介质
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN111737424A (zh) 一种问题的匹配方法、装置、设备及存储介质
CN114579606B (zh) 预训练模型数据处理方法、电子设备及计算机存储介质
CN115510213A (zh) 用于作业机械的问答方法及系统、作业机械

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181207