CN113704471B - 语句的分类方法、装置、设备和存储介质 - Google Patents

语句的分类方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN113704471B
CN113704471B CN202110990758.4A CN202110990758A CN113704471B CN 113704471 B CN113704471 B CN 113704471B CN 202110990758 A CN202110990758 A CN 202110990758A CN 113704471 B CN113704471 B CN 113704471B
Authority
CN
China
Prior art keywords
vocabulary
sample
topic
classified
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110990758.4A
Other languages
English (en)
Other versions
CN113704471A (zh
Inventor
熊泽成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vipshop Guangzhou Software Co Ltd
Original Assignee
Vipshop Guangzhou Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vipshop Guangzhou Software Co Ltd filed Critical Vipshop Guangzhou Software Co Ltd
Priority to CN202110990758.4A priority Critical patent/CN113704471B/zh
Publication of CN113704471A publication Critical patent/CN113704471A/zh
Application granted granted Critical
Publication of CN113704471B publication Critical patent/CN113704471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种语句的分类方法、装置、设备和存储介质,首获取待分类语句,对语句进行分词处理,得到待分类词汇,将每一个待分类词汇输入至预先训练的主题分类器以确定每一个待分类词汇的主题;根据每一个待分类词汇的主题分类结果计算待分类语句属于每个主题的概率;选择最大概率对应的主题作为待分类语句的分类结果。该方法通过词聚类方法对待分类语句中形成的待分类词汇进行主题分类,能有效地保证各词汇分类的准确率且在对待分类词汇进行分类时采用预先训练的主题分类器,其中采用词汇样本对词聚类算法模型进行学习训练得到的,模型训练过程不需要对样本进行标注,可以大大减少人工成本,操作非常简单并且准确率高。

Description

语句的分类方法、装置、设备和存储介质
技术领域
本申请涉及数据处理技术领域,具体涉及一种语句的分类方法、装置、设备和存储介质。
背景技术
随着电商平台的不断发展,网上购物已经成为大部分用户购物的主要渠道之一。用户在电商平台购买商品后可以对商品进行评论,其中用户在商品下发表的评论内容常常包含重要的信息能反映商品的特性,例如用户针对某商品的好评,往往能反映该商品的优点。实际上评论内容代表了用户对该商品的观点,不同的评论往往会表述各种不同的观点,如果能够针对某个商品的全部内容(例如全部好评内容)进行观点提炼整理,就能从用户角度归纳出该个商品的各种特性,同时也能将表述同一种特性的内容整合在一起,帮助其他想要购买该商品的用户迅速且准确的了解该商品的优点,并能够集中查看某个优点对应的用户评论,帮助用户进行购买决策。
目前主要采用关键字匹配方法或者基于监督式的方法来对用户的评论内容进行分析,然后根据分析结果进行整合。其中,关键词匹配的方式就是识别包含某些关键字的评论内容,此方法会维护观点与对应关键词的映射关系表,一旦评论内容中匹配到某一个关键词,就认为评论属于关键词对应的观点,如“顺滑”、“柔顺”、“爽滑”等关键词可以对应“柔顺润滑”这一类观点。但通过关键词匹配往往不能识别评论的语义,容易导致误判,如评论中出现“不是很柔顺”等表述,由于命中了关键词,仍然会认为属于“柔顺润滑”。同时,关键词匹配具有比较大的局限性,只能够识别出文本中含有对应关键词的评论,容易漏判大量没出现相应关键词但实际表述了此类观点的好评。而监督式的方法,是通过大量标注语料训练出一个文本分类模型,学习评论中的语义,将评论内日归类到对应的观点类别中。但这种监督式学习方法需要事先使用人工对大量的好评内容进行标注,标注每个评论内容所对应的观点类别才能进行学习,极大地耗费了人力成本。
申请内容
有鉴于此,本申请实施例中提供了一种语句的分类方法、装置、设备和存储介质,用来解决现有的监督式的方法在对评论内容或语句进行分析时需要采用人工方式对评论内容或语句进行标注,操作复杂,时间成本高的问题。
第一方面,本申请实施例提供了一种语句的分类方法,该方法包括:
获取待分类语句;
将所述待分类语句进行分词处理,得到多个待分类词汇;
将每一个所述待分类词汇输入至预先训练的主题分类器,以确定每一个所述待分类词汇的主题;其中,所述主题分类器采用词汇样本对词聚类算法模型进行学习训练得到的;
根据每一个所述待分类词汇的主题分类结果计算所述待分类语句属于每个所述主题的概率;
选择最大概率对应的主题作为所述待分类语句的分类结果。
第二方面,本申请实施例提供了一种语句的分类装置,该装置包括:
待分类语句获取模块,用于获取待分类语句;
待分类词汇获得模块,用于将所述待分类语句进行分词处理,得到多个待分类词汇;
主题确定模块,用于将每一个所述待分类词汇输入至预先训练的主题分类器,以确定每一个所述待分类词汇的主题;其中,所述主题分类器采用词汇样本对词聚类算法模型进行学习训练得到的;
概率计算模块,用于根据每一个所述待分类词汇的主题分类结果计算所述待分类语句属于每个所述主题的概率;
分类结果确定模块,用于选择最大概率对应的主题作为所述待分类语句的分类结果。
第三方面,本申请实施例提供了一种终端设备,包括:存储器;一个或多个处理器,与所述存储器耦接;一个或多个应用程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个应用程序配置用于执行上述第一方面提供的语句的分类方法。
第四方面,本申请实施例提供了一种计算机可读取存储介质,计算机可读取存储介质中存储有程序代码,程序代码可被处理器调用执行上述第一方面提供的语句的分类方法。
本申请实施例提供的语句的分类方法、装置、设备和存储介质,首先,获取待分类语句,对语句进行分词处理,从而得到待分类词汇,然后将每一个待分类词汇输入至预先训练的主题分类器以确定每一个待分类词汇的主题;根据每一个待分类词汇的主题分类结果计算待分类语句属于每个主题的概率;选择最大概率对应的主题作为待分类语句的分类结果。
该方法通过词聚类方法对待分类语句中形成的待分类词汇进行主题分类(或聚类),能有效地保证各词汇分类的准确率;并基于各待分类词汇的分类主题并采用概率统计方式计算待分类语句属于各分类主题的概率,然后选择最大概率对应的主题作为待分析语句的分类结果,能最大程度保证分类结果的准确性。并且在对待分类词汇进行分类时采用预先训练的主题分类器,其中采用词汇样本对词聚类算法模型进行学习训练得到的,模型训练过程不需要对样本进行标注,可以大大减少人工成本,操作非常简单并且准确率高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的语句的分类方法的应用场景示意图;
图2为本申请一个实施例提供的语句的分类方法的流程示意图;
图3为本申请一个实施例提供的词分类器训练的方法流程示意图;
图4为本申请一个实施例提供的语句的分类装置的结构图;
图5为本申请一个实施例中提供的终端设备的结构示意图;
图6为本申请一个实施例中提供的计算机可读存储介质的结构示意图。
具体实施方式
下面将对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了更详细说明本申请,下面结合附图对本申请提供的一种语句的分类方法、装置、终端设备和计算机存储介质,进行具体地描述。
请参考图1,图1示出了本申请实施例提供的语句的分类方法的应用场景的示意图,该应用场景包括本申请实施例提供的终端设备100,终端设备100可以是具有显示屏的各种电子设备(如102、104、106和108的结构图),包括但不限于智能手机和计算机设备,其中计算机设备可以是台式计算机、便携式计算机、膝上型计算机、平板电脑等设备中的至少一种。
其次,终端设备100可以泛指多个终端设备中的一个,本实施例仅以终端设备100来举例说明。本领域技术人员可以知晓,上述终端设备的数量可以更多或更少。比如上述终端设备可以仅为几个,或者上述终端设备为几十个或几百个,或者更多数量,本申请实施例对终端设备的数量和类型不加以限定。终端设备100可以用来执行本申请实施例中提供的一种语句的分类方法。
在一种可选的实施方式中,该应用场景包括本申请实施例提供的终端设备100之外,还可以包括服务器,其中服务器与终端设备之间设置有网络。网络用于在终端设备和服务器之间提供通信链路的介质。网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
应该理解,终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器可以是多个服务器组成的服务器集群等。其中,终端设备通过网络与服务器交互,以接收或发送消息等。服务器可以是提供各种服务的服务器。其中服务器可以用来执行本申请实施例中提供的一种语句的分类方法的步骤。此外,终端设备在执行本申请实施例中提供的一种语句的分类方法时,可以将一部分步骤在终端设备执行,一部分步骤在服务器执行,在这里不进行限定。
基于此,本申请实施例中提供了一种语句的分类方法。请参阅图2,图2示出了本申请实施例提供的一种语句的分类方法的流程示意图,以该方法应用于图1中的终端设备为例进行说明,包括以下步骤:
步骤S110,获取待分类语句。
步骤S120,将待分类语句进行分词处理,得到多个待分类词汇。
其中,待分类语句可以是指任意需要进行分类处理的句子,包括但不限于电商平台中用户的评论句子、网络论坛中用户发表的言论等。
分词处理就是将一个语句分成多个单词词汇,例如有一个待分类语句:我想成为一名合格的NLP算法工程师,通过分词处理可以形成:我/想/成为/一名/合格的/NLP算法/工程师,其中“/”所隔开的词汇都是待分类词汇。
步骤S130,将每一个待分类词汇输入至预先训练的主题分类器,以确定每一个待分类词汇的主题。
其中,主题分类器采用词汇样本对词聚类算法模型进行学习训练得到的。
主题分类器主要用于对待分类词汇进行主题分类,即当将一个待分类词汇输入主题分类器后会输出该待分类词汇所属的主题。
词聚类算法模型就是对词汇或词语进行聚类分析,从而能确定词汇或词语类别的算法。可选地,词聚类算法模型可以包括但不限于LDA算法模型、k-means聚类算法模型、DBSCAN算法模型、层次聚类算法模型或谱聚类算法模型。
在本实施例中,采用词汇样本对词聚类算法模型进行训练从而得到主题分类器。
步骤S140,根据每一个待分类词汇的主题分类结果计算待分类语句属于每个主题的概率。
步骤S150,选择最大概率对应的主题作为待分类语句的分类结果。
在得到待分类语句中每一个待分类词汇的分类主题后,就可以根据每个待分类词汇的分类主题结果来统计计算每个句子属于各主题的概率,最后根据概率来确定待分类语句的分类结果。
在一种可选地实施方式,根据每一个待分类词汇的主题分类结果计算待分类语句属于各主题的概率,包括:统计待分类词汇的总数量和每个主题包含的待分类词汇的数量;根据待分类词汇的总数量和每个主题包含的待分类词汇的数量分别计算待分类语句属于每个主题的概率。
具体地,先统计计算出待分类语句中待分类词汇的总数量,以及分类得到的各主题中包括的待分类词汇的数量,然后将分类得到的各主题中包括的待分类词汇的数量与待分类语句中待分类词汇的总数量进行相除处理,其比值即为待分类语句属于各主题的概率。
为了便于理解给出一个详细的实施例。假设有一个待分类语句:护肤品A非常补水,保湿效果好,且味道清新。将该待分类语句进行分词处理得到的待分类词汇为:护肤品A、非常补水、保湿效果好、味道清新,其对应的主题依次为:产品名称、保湿补水、保湿补水以及味道好闻;那么产品名称主题中包括的待分类词汇为1个,保湿补水主题中包括的待分类词汇为2个,味道好闻主题中包括的待分类词汇为1个,待分类词汇的总数量为4个,则该待分类语句属于产品名称主题的概率为1/4=25%,属于保湿补水主题的概率为2/4=50%,属于味道好闻主题的概率为1/4=25%。此时,可以现在50%对应的保湿补水主题为该带分类语句的分类结果。
本申请实施例提供的语句的分类方法,首先,获取待分类语句,对语句进行分词处理,从而得到待分类词汇,然后将每一个待分类词汇输入至预先训练的主题分类器以确定每一个待分类词汇的主题;根据每一个待分类词汇的主题分类结果计算待分类语句属于每个主题的概率;选择最大概率对应的主题作为待分类语句的分类结果。
该方法通过词聚类方法对待分类语句中形成的待分类词汇进行主题分类(或聚类),能有效地保证各词汇分类的准确率;并基于各待分类词汇的分类主题并采用概率统计方式计算待分类语句属于各分类主题的概率,然后选择最大概率对应的主题作为待分析语句的分类结果,能最大程度保证分类结果的准确性。并且在对待分类词汇进行分类时采用预先训练的主题分类器,其中采用词汇样本对词聚类算法模型进行学习训练得到的,模型训练过程不需要对样本进行标注,可以大大减少人工成本,操作非常简单并且准确率高。
进一步地,给出了主题分类器训练方法的具体实施方式,描述如下:
在一个实施例中,词聚类算法模型包括Seeded LDA算法模型;主题分类器通过以下方式获得:
步骤S210,获取预先配置的主题样本、种子词汇和语句样本。
其中,主题样本和种子词汇的数量为多个,每一个种子词汇仅对应一个主题样本。
具体地,LDA模型是一个3层贝叶斯模型,该模型认为文本集中所有的文本共享K个主题,每篇文本中的单词以任意交换顺序而不影响结果。即一遍文本由多个主题组成,主题表现为单词的特征分布。Seeded-LDA算法模型就是用seeds集来初始化LDA算法,不同于LDA中统一初始化每篇文本的主题分布,Seeded-LDA算法模型来确定有标签文本的主题分布。在本实施例中,Seeded LDA算法模型中的文本可以是指待分类语句。seeds集中包含有种子词汇。主题样本就是模型中的主题,其中主题样本和种子词汇的数量为多个,每一个种子词汇仅对应一个主题样本。
另外,主题样本的类别以及种子词汇通常跟待分类语句使用领域有关。例如美妆领域的主题样本的类别与汽车等领域的肯定有所区别,那么在获取预先配置的主题样本、种子词汇以及语句样本时可以参考所要分类的语句的使用领域而确定。
为了便于理解给出一个详细的实施例,以美妆类产品为例。首先获取预先配置当前商品类别的主题样本、种子词汇,如表1所示。
表1为主体样本和种子词汇表
主题样本 种子词汇
柔顺润滑 顺滑、柔顺、爽滑
保湿补水 保湿、补水、锁水
味道好闻 清香、香气、好闻
其中主题样本表示希望从待分类语句中提取的观点,种子词汇就是属于这类观点的词汇集合。种子词汇相当于一种先验知识,其已经设定好符合现实认知且是任务需要识别的主题,并且已经指定了这些主题下所归属的一些词汇即种子词汇,一个种子词汇只能归属一个的主题,不可能归属于多个主题,该种子词汇下主题概率分布中在该主题的概率为1,其概率不会在训练阶段随分布学习过程而改变。
然后需要准备大量的未标注语料用于训练,其中每一条未标注语料为一个语句样本,不需要进行任何标注,只需要使用分词工具对句子进行分词。可选地,语句样本的数量通常为多个。
步骤S220,对语句样本进行分词处理,以生成多个词汇样本。
其中,对语句样本进行分词处理,就可以生成多个词汇样本。
步骤S230,基于各种子词汇对每一个词汇样本分配主题样本,以形成Seeded LDA算法模型的主题词汇矩阵。
其中主题词汇矩阵的每一行代表一个词汇样本,每一列代表一个主题样本,矩阵中的元素表示在每个主题样本中每个词汇样本出现的次数。
具体地,训练过程开始时,需要列出一个主题词汇矩阵,其中矩阵每一行代表一个词汇,每一列代表一个主题样本,矩阵的元素初始值全部置为0。然后对主题词汇矩阵进行初始化处理,即基于各种子词汇对每一个词汇样本分配主题样本,以形成Seeded LDA算法模型的主题词汇矩阵,此时的Seeded LDA算法模型的主题词汇矩阵每一行代表一个词汇样本,每一列代表一个主题样本,矩阵中的元素表示在每个主题样本中每个词汇样本出现的次数。
可选地,在执行步骤S230,基于种子词汇对每一个词汇样本分配主题样本,包括:对于每一个词汇样本,当词汇样本与任一个种子词汇相同时,将与词汇样本相同的种子词汇对应的主题样本分配为词汇样本的主题样本;或:当词汇样本与任一个种子词汇不相同时,随机为词汇样本分配主题样本。
具体而言,对于每一个待分类词汇执行以下操作:若该待分类词汇不属于种子词汇,随机为该待分类词汇指定主题样本;若该待分类词汇属于种子词汇,则指定该待分类词汇的主题样本为种子词汇对应的主题样本。然后在将主题词汇矩阵中对应于该待分类词汇及其所指定的主题样本的位置计数加1。
步骤S240,在每一个训练周期,遍历多个词汇样本,更新各词汇样本的主题样本以及主题词汇矩阵,直至当某一个训练周期中任意一个词汇样本的主题样本不再需要更新或达到预设训练周期,以形成主题分类器。
在一个实施例中,在执行步骤S240,遍历多个词汇样本,更新各词汇样本的主题样本以及主题词汇矩阵,包括:对于每一个词汇样本,当词汇样本属于种子词汇时,不更新词汇样本的主题样本;或:当词汇样本不属于种子词汇时,计算词汇样本所在的语句样本出现词汇样本的概率,选择最大概率对应的主题样本来更新词汇样本的主题样本;其中语句样本出现词汇样本的概率为多个,且与各主题样本有关。
进一步地,给出了一种计算词汇样本所在的语句样本通过出现词汇样本的概率的具体实施方式,详细描述如下:
在一个实施例中,计算词汇样本所在的语句样本出现词汇样本的概率,包括:计算各主题样本出现词汇样本的概率;计算词汇样本所在的语句样本对应到各主题样本的概率;根据各主题样本出现词汇样本的概率和词汇样本所在的语句样本对应到各主题样本的概率分别计算词汇样本所在的语句样本出现词汇样本的概率。
具体而言,在生成Seeded LDA算法模型的主题词汇矩阵之后,在每一个训练周期,对于每一个语句样本都执行以下操作:顺序遍历语句样本中的每一个词汇样本,其中对于每一个词汇样本的具体操作为:判断该词汇样本是否为种子词汇,如果是,不更新该词汇样本的主题样本,并直接遍历下一个词汇样本;如果该词汇样本不属于(或不是)种子词汇,则对该词汇样本的主题样本进行更新,其中在计算词汇样本所在的语句样本出现词汇样本的概率,然后选择最大概率对应的主题词汇样本将原本的主题样本修正为概率更大的主题样本,训练过程中种子词汇不会切换主题样本,并且样本词汇概率分布受种子词汇所约束。
语句样本中出现某一个词汇样本的概率,该概率通过每个主题样本下该词汇样本出现的概率乘以该语句样本下各个主题样本的出现概率(即语句样本对应到各个不同的主题样本的概率)计算而得到的。其中,每个主题样本下该词汇样本出现的概率是指该词汇样本在某一主题样本的数量除以该主题样本所有词汇样本总数量;该语句样本下某个主题样本的出现概率是指该语句样本中指定了某个主题样本的词汇样本的数量除以语句样本中所有词汇样本的总数量,即该语句样本中对应到某个主题样本的词汇样本的数量除以语句样本中所有词汇样本的总数量。
为了便于理解,给出一个详细实施例。先定义一些字母的含义,假设有一个语句样本集合D,topic(在本实施例中是指主题样本)集合T。D中每个语句样本d看作一个词汇序列<w1,w2,...,wn>,wi表示第i个单词,设d有n个单词。其中,D中涉及的所有不同词汇组成一个大集合VOC。Seeded LDA算法模型以语句样本集合D作为输入,希望训练出的两个结果向量(设聚成k个Topic,VOC中共包含m个词):
对每个D中的语句样本d,对应到不同topic的概率θd<pt1,...,ptk>,其中,pti表示d对应T中第i个topic的概率,计算方法是直观的,pti=nti/n,其中nti表示d中对应第i个topic的词汇样本的数目,n是d中所有词汇样本的总数。
对每个T中的topic t,生成不同词汇样本的概率φt<pw1,...,pwm>,其中,pwi表示t生成VOC中第i个单词的概率。计算方法同样很直观,pwi=Nwi/N,其中Nwi表示对应到topic t的VOC中第i个单词的数目,N表示所有对应到topic t的单词总数。
Seeded LDA算法模型的核心公式如下:
p(w|d)=p(w|t)*p(t|d)
该公式是以Topic作为中间层,可以通过当前的θd和φt给出了语句样本d中出现词汇w的概率。其中p(t|d)利用θd计算得到,p(w|t)利用φt计算得到。实际上,利用当前的θd和φt,我们可以为一个语句样本中的一个词汇样本计算它对应任意一个Topic时的p(w|d),然后根据这些结果来更新这个词汇样本应该对应的topic。然后,如果这个更新改变了这个词汇样本所对应的Topic,就会反过来影响θd和φt。Seeded LDA算法开始时,先随机地给θd和φt赋值(对所有的d和t)。然后上述过程不断重复,最终收敛到的结果就是SeededLDA的输出。
在训练过程中不断对词汇样本进行主题样本更新;如果训练中某一个周期内任何一个词汇样本的主题样本前后没有发生变化,或者训练周期数达到预设训练周期时中止训练,得到最终的主题词汇分布矩阵,记为预先训练的主题分类器。
另外,在模型训练完成后,就可以采用训练后的主题分类器来对待分类语句进行预测。其预测过程与模型训练过程类似,具体过程为:对于一个待分类语句(例如好评语句),首先待分类语句进行分词。分词后,按顺序遍历待分类语句的每一个待分类词汇,若该待分类语句不属于种子词汇,随机指定该词汇的主题;若该待分类语句属于种子词汇词,则指定该待分类语句的主题为这个种子词汇对应的主题。然后,进行类似于训练阶段的周期操作,每一个周期的操作具体如下:1)按顺序遍历待分类语句中的每一个该待分类词汇,对于每一个词汇的具体操作,进入2)。2)若该待分类词汇属于种子词汇,回到1)遍历下一个待分类词汇;若该待分类词汇不属于种子词汇,则更新该分类词汇的主题。3)预先训练的主题分类器中的主题词汇分布矩阵,对每个主题通过计算待分类语句出现该待分类词汇的概率,最终选择概率最大的主题作为该分类词汇指定的主题,然后回到1)遍历下一个词汇。
不断循环进行上述周期操作,直到某一个周期内任何一个待分类词汇的主题前后没有发生变化,或者训练周期数达到预设训练周期时中止训练。最终计算得到待分类语句属于各个主题的概率,最终选择概率最大的主题作为待分类语句的主题,即分类结果。
应该理解的是,虽然图2至图3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且图2至图3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
上述本申请公开的实施例中详细描述了一种语句的分类方法,对于本申请公开的上述方法可采用多种形式的设备实现,因此本申请还公开了对应上述方法的语句的分类装置,下面给出具体的实施例进行详细说明。
请参阅图4,为本申请实施例公开的一种语句的分类装置,主要包括:
待分类语句获取模块410,用于获取待分类语句。
待分类词汇获得模块420,用于将待分类语句进行分词处理,得到多个待分类词汇。
主题确定模块430,用于将每一个待分类词汇输入至预先训练的主题分类器,以确定每一个待分类词汇的主题;其中,主题分类器采用词汇样本对词聚类算法模型进行学习训练得到的。
概率计算模块440,用于根据每一个待分类词汇的主题分类结果计算待分类语句属于每个主题的概率。
分类结果确定模块450,用于选择最大概率对应的主题作为待分类语句的分类结果。
在一个实施例中,概率计算模块440,用于统计待分类词汇的总数量和每个主题包含的待分类词汇的数量;根据待分类词汇的总数量和每个主题包含的待分类词汇的数量分别计算待分类语句属于每个主题的概率。
在一个实施例中,词聚类算法模型包括Seeded LDA算法模型;装置还包括主题分类器获得模块,用于获取预先配置的主题样本、种子词汇和语句样本;其中,主题样本和种子词汇的数量为多个,每一个种子词汇仅对应一个主题样本;对语句样本进行分词处理,以生成多个词汇样本;基于各种子词汇对每一个词汇样本分配主题样本,以形成Seeded LDA算法模型的主题词汇矩阵,其中主题词汇矩阵的每一行代表一个词汇样本,每一列代表一个主题样本,矩阵中的元素表示在每个主题样本中每个词汇样本出现的次数;在每一个训练周期,遍历多个词汇样本,更新各词汇样本的主题样本以及主题词汇矩阵,直至当某一个训练周期中任意一个词汇样本的主题样本不再需要更新或达到预设训练周期,以形成主题分类器。
在一个实施例中,主题分类器获得模块,用于对于每一个词汇样本,当词汇样本与任一个种子词汇相同时,将与词汇样本相同的种子词汇对应的主题样本分配为词汇样本的主题样本;或:当词汇样本与任一个种子词汇不相同时,随机为词汇样本分配主题样本。
在一个实施例中,主题分类器获得模块,用于对于每一个词汇样本,当词汇样本属于种子词汇时,不更新词汇样本的主题样本;或:当词汇样本不属于种子词汇时,计算词汇样本所在的语句样本出现词汇样本的概率,选择最大概率对应的主题样本来更新词汇样本的主题样本;其中语句样本出现词汇样本的概率为多个,且与各主题样本有关。
在一个实施例中,主题分类器获得模块,用于计算各主题样本出现词汇样本的概率;计算词汇样本所在的语句样本对应到各主题样本的概率;根据各主题样本出现词汇样本的概率和词汇样本所在的语句样本对应到各主题样本的概率分别计算词汇样本所在的语句样本出现词汇样本的概率。
在一个实施例中,词聚类算法模型包括LDA算法模型、k-means聚类算法模型、DBSCAN算法模型、层次聚类算法模型或谱聚类算法模型。
关于语句的分类装置的具体限定可以参见上文中对于方法的限定,在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端设备中的处理器中,也可以以软件形式存储于终端设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
请参考图5,图5其示出了本申请实施例提供的一种终端设备的结构框图。该终端设备50可以是计算机设备。本申请中的终端设备50可以包括一个或多个如下部件:处理器52、存储器54以及一个或多个应用程序,其中一个或多个应用程序可以被存储在存储器54中并被配置为由一个或多个处理器52执行,一个或多个应用程序配置用于执行上述应用于终端设备的方法实施例中所描述的方法,也可以配置用于执行上述应用于语句的分类方法实施例中所描述的方法。
处理器52可以包括一个或者多个处理核。处理器52利用各种接口和线路连接整个终端设备50内的各个部分,通过运行或执行存储在存储器54内的指令、程序、代码集或指令集,以及调用存储在存储器54内的数据,执行终端设备50的各种功能和处理数据。可选地,处理器52可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器52可集成中央处理器(Cen tralProcessingUnit,CPU)、埋点数据的上报验证器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器52中,单独通过一块通信芯片进行实现。
存储器54可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器54可用于存储指令、程序、代码、代码集或指令集。存储器54可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备50在使用中所创建的数据等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端设备的限定,具体的终端设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
综上,本申请实施例提供的终端设备用于实现前述方法实施例中相应的语句的分类方法,并具有相应的方法实施例的有益效果,在此不再赘述。
请参阅图6,其示出了本申请实施例提供的一种计算机可读取存储介质的结构框图。该计算机可读取存储介质60中存储有程序代码,程序代码可被处理器调用执行上述语句的分类方法实施例中所描述的方法,也可以被处理器调用执行上述语句的分类方法实施例中所描述的方法。
计算机可读取存储介质60可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读取存储介质60包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读取存储介质60具有执行上述方法中的任何方法步骤的程序代码62的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码62可以例如以适当形式进行压缩。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种语句的分类方法,其特征在于,所述方法包括:
获取待分类语句;
将所述待分类语句进行分词处理,得到多个待分类词汇;
将每一个所述待分类词汇输入至预先训练的主题分类器,以确定每一个所述待分类词汇的主题;其中,所述主题分类器采用词汇样本对词聚类算法模型进行学习训练得到的;
根据每一个所述待分类词汇的主题分类结果计算所述待分类语句属于每个所述主题的概率;
选择最大概率对应的主题作为所述待分类语句的分类结果;
其中,所述词聚类算法模型包括Seeded LDA算法模型;所述主题分类器通过以下方式获得:
获取预先配置的主题样本、种子词汇和语句样本;其中,主题样本和种子词汇的数量为多个,每一个种子词汇仅对应一个主题样本;
对所述语句样本进行分词处理,以生成多个词汇样本;
基于各所述种子词汇对每一个所述词汇样本分配主题样本,以形成所述Seeded LDA算法模型的主题词汇矩阵,其中所述主题词汇矩阵的每一行代表一个词汇样本,每一列代表一个主题样本,矩阵中的元素表示在每个所述主题样本中每个所述词汇样本出现的次数;
在每一个训练周期,遍历多个所述词汇样本,更新各所述词汇样本的主题样本以及所述主题词汇矩阵,直至当某一个训练周期中任意一个所述词汇样本的主题样本不再需要更新或达到预设训练周期,以形成所述主题分类器。
2.根据权利要求1所述的方法,其特征在于,所述根据每一个所述待分类词汇的主题分类结果计算所述待分类语句属于各所述主题的概率,包括:
统计待分类词汇的总数量和每个所述主题包含的待分类词汇的数量;
根据待分类词汇的总数量和每个所述主题包含的待分类词汇的数量分别计算所述待分类语句属于每个所述主题的概率。
3.根据权利要求2所述的方法,其特征在于,所述基于所述种子词汇对每一个所述词汇样本分配主题样本,包括:
对于每一个所述词汇样本,当所述词汇样本与任一个所述种子词汇相同时,将与所述词汇样本相同的所述种子词汇对应的主题样本分配为所述词汇样本的主题样本;
或:
当所述词汇样本与任一个所述种子词汇不相同时,随机为所述词汇样本分配所述主题样本。
4.根据权利要求3所述的方法,其特征在于,所述遍历多个所述词汇样本,更新各所述词汇样本的主题样本以及所述主题词汇矩阵,包括:
对于每一个所述词汇样本,当所述词汇样本属于种子词汇时,不更新所述词汇样本的主题样本;
或:
当所述词汇样本不属于种子词汇时,计算所述词汇样本所在的所述语句样本出现所述词汇样本的概率,选择最大概率对应的主题样本来更新所述词汇样本的主题样本;其中所述语句样本出现所述词汇样本的概率为多个,且与各主题样本有关。
5.根据权利要求4所述的方法,其特征在于,所述计算所述词汇样本所在的所述语句样本出现所述词汇样本的概率,包括:
计算各所述主题样本出现所述词汇样本的概率;
计算所述词汇样本所在的所述语句样本对应到各所述主题样本的概率;
根据各所述主题样本出现所述词汇样本的概率和所述词汇样本所在的所述语句样本对应到各所述主题样本的概率分别计算所述词汇样本所在的所述语句样本出现所述词汇样本的概率。
6.根据权利要求1或2所述的方法,其特征在于,所述词聚类算法模型包括LDA算法模型、k-means聚类算法模型、DBSCAN算法模型、层次聚类算法模型或谱聚类算法模型。
7.一种语句的分类装置,其特征在于,所述装置包括:
待分类语句获取模块,用于获取待分类语句;
待分类词汇获得模块,用于将所述待分类语句进行分词处理,得到多个待分类词汇;
主题确定模块,用于将每一个所述待分类词汇输入至预先训练的主题分类器,以确定每一个所述待分类词汇的主题;其中,所述主题分类器采用词汇样本对词聚类算法模型进行学习训练得到的,所述词聚类算法模型包括Seeded LDA算法模型;
概率计算模块,用于根据每一个所述待分类词汇的主题分类结果计算所述待分类语句属于每个所述主题的概率;
分类结果确定模块,用于选择最大概率对应的主题作为所述待分类语句的分类结果;
主题分类器获得模块,用于获取预先配置的主题样本、种子词汇和语句样本;其中,主题样本和种子词汇的数量为多个,每一个种子词汇仅对应一个主题样本;对所述语句样本进行分词处理,以生成多个词汇样本;基于各所述种子词汇对每一个所述词汇样本分配主题样本,以形成所述Seeded LDA算法模型的主题词汇矩阵,其中所述主题词汇矩阵的每一行代表一个词汇样本,每一列代表一个主题样本,矩阵中的元素表示在每个所述主题样本中每个所述词汇样本出现的次数;在每一个训练周期,遍历多个所述词汇样本,更新各所述词汇样本的主题样本以及所述主题词汇矩阵,直至当某一个训练周期中任意一个所述词汇样本的主题样本不再需要更新或达到预设训练周期,以形成所述主题分类器。
8.一种终端设备,其特征在于,包括:
存储器;一个或多个处理器,与所述存储器耦接;一个或多个应用程序,其中,一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个应用程序配置用于执行如权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-6任一项所述的方法。
CN202110990758.4A 2021-08-26 2021-08-26 语句的分类方法、装置、设备和存储介质 Active CN113704471B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110990758.4A CN113704471B (zh) 2021-08-26 2021-08-26 语句的分类方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110990758.4A CN113704471B (zh) 2021-08-26 2021-08-26 语句的分类方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN113704471A CN113704471A (zh) 2021-11-26
CN113704471B true CN113704471B (zh) 2024-02-02

Family

ID=78655477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110990758.4A Active CN113704471B (zh) 2021-08-26 2021-08-26 语句的分类方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113704471B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115358206B (zh) * 2022-10-19 2023-03-24 上海浦东华宇信息技术有限公司 文本排版方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN108280164A (zh) * 2018-01-18 2018-07-13 武汉大学 一种基于类别相关单词的短文本过滤与分类方法
CN109446318A (zh) * 2018-09-14 2019-03-08 深圳市元征科技股份有限公司 一种确定汽车维修文档主题的方法及相关设备
CN110472053A (zh) * 2019-08-05 2019-11-19 广联达科技股份有限公司 一种面向公共资源招投标公告数据的自动分类方法及其系统
CN110717038A (zh) * 2019-09-17 2020-01-21 腾讯科技(深圳)有限公司 对象分类方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014203264A1 (en) * 2013-06-21 2014-12-24 Hewlett-Packard Development Company, L.P. Topic based classification of documents
CN105677769B (zh) * 2015-12-29 2018-01-05 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
US10474967B2 (en) * 2017-05-23 2019-11-12 International Business Machines Corporation Conversation utterance labeling

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106844424A (zh) * 2016-12-09 2017-06-13 宁波大学 一种基于lda的文本分类方法
CN108280164A (zh) * 2018-01-18 2018-07-13 武汉大学 一种基于类别相关单词的短文本过滤与分类方法
CN109446318A (zh) * 2018-09-14 2019-03-08 深圳市元征科技股份有限公司 一种确定汽车维修文档主题的方法及相关设备
CN110472053A (zh) * 2019-08-05 2019-11-19 广联达科技股份有限公司 一种面向公共资源招投标公告数据的自动分类方法及其系统
CN110717038A (zh) * 2019-09-17 2020-01-21 腾讯科技(深圳)有限公司 对象分类方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于主题聚类的短文本情绪分类方法;林江豪;顾也力;周咏梅;阳爱民;陈锦;;计算机与数字工程(第06期);141-145 *
时序化LDA的舆情文本动态主题提取;万红新;彭云;郑睿颖;;计算机与现代化(第07期);94-97 *
网络评论方面级观点挖掘方法研究综述;韩忠明;软件学报(第02期);417-441 *

Also Published As

Publication number Publication date
CN113704471A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN109493166B (zh) 一种针对电子商务导购场景任务型对话系统的构建方法
CN107679234B (zh) 客服信息提供方法、装置、电子设备、存储介质
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
US20230237328A1 (en) Information processing method and terminal, and computer storage medium
CN111680159B (zh) 数据处理方法、装置及电子设备
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN110795913B (zh) 一种文本编码方法、装置、存储介质及终端
CN108845986A (zh) 一种情感分析方法、设备及系统、计算机可读存储介质
CN107918778A (zh) 一种信息匹配方法及相关装置
CN110377733A (zh) 一种基于文本的情绪识别方法、终端设备及介质
CN110858226A (zh) 对话管理方法和装置
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN111538841B (zh) 基于知识互蒸馏的评论情感分析方法、装置及系统
CN114972823A (zh) 数据处理方法、装置、设备及计算机介质
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
Khan et al. Comparative analysis on Facebook post interaction using DNN, ELM and LSTM
CN115269781A (zh) 模态关联度预测方法、装置、设备、存储介质及程序产品
CN113704471B (zh) 语句的分类方法、装置、设备和存储介质
CN113204643B (zh) 一种实体对齐方法、装置、设备及介质
CN113435182A (zh) 自然语言处理中分类标注的冲突检测方法、装置和设备
US20230351473A1 (en) Apparatus and method for providing user&#39;s interior style analysis model on basis of sns text
CN116910201A (zh) 一种对话数据生成方法及其相关设备
CN115906861A (zh) 基于交互方面信息融合的语句情感分析方法以及装置
CN114300127A (zh) 问诊处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant