CN113779259A - 文本分类方法、装置、计算机设备和存储介质 - Google Patents

文本分类方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN113779259A
CN113779259A CN202111346141.5A CN202111346141A CN113779259A CN 113779259 A CN113779259 A CN 113779259A CN 202111346141 A CN202111346141 A CN 202111346141A CN 113779259 A CN113779259 A CN 113779259A
Authority
CN
China
Prior art keywords
text
sentence
text sentence
initial
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111346141.5A
Other languages
English (en)
Other versions
CN113779259B (zh
Inventor
杨华宇
王昕�
胡芳
王欢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taiping Financial Operation Service Shanghai Co ltd
Taiping Finance Technology Services Shanghai Co ltd
Original Assignee
Taiping Financial Operation Service Shanghai Co ltd
Taiping Finance Technology Services Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taiping Financial Operation Service Shanghai Co ltd, Taiping Finance Technology Services Shanghai Co ltd filed Critical Taiping Financial Operation Service Shanghai Co ltd
Priority to CN202111346141.5A priority Critical patent/CN113779259B/zh
Publication of CN113779259A publication Critical patent/CN113779259A/zh
Application granted granted Critical
Publication of CN113779259B publication Critical patent/CN113779259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及大数据技术领域,特别是涉及一种文本分类方法、装置、计算机设备和存储介质。所述方法包括:获取待分类文本数据;对待分类文本数据进行分句处理,得到多个文本句;从各文本句中提取出文本句分词以及对应各文本句分词的关联词,以得到各文本句对应的多个关联词组;根据各关联词组,生成对应的多个文本主题,并将待分类文本数据的各文本句添加至对应的文本主题中。采用本方法能够提升文本分类的准确性。

Description

文本分类方法、装置、计算机设备和存储介质
技术领域
本申请涉及大数据技术领域,特别是涉及一种文本分类方法、装置、计算机设备和存储介质。
背景技术
随着互联网的迅速发展,越来越多的用户通过网络进行信息的共享,通过电子文本记载网络信息资源,因此,若需要快速在海量的电子文本中找到所需电子信息,则需要在文本中提取文本主题以表征该文本。
在传统方式中,通常通过选取关键词或者关键词组作为文本数据的文本主题,然后对文本数据进行分类。
但是,在该种方式中,存在有的文本数据与关键词并无任何关联,使得分类结果并不准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升文本分类准确性的文本分类方法、装置、计算机设备和存储介质。
一种文本分类方法,所述方法包括:
获取待分类文本数据;
对待分类文本数据进行分句处理,得到多个文本句;
从各文本句中提取出文本句分词以及对应各文本句分词的关联词,以得到各文本句对应的多个关联词组;
根据各关联词组,生成对应的多个文本主题,并将待分类文本数据的各文本句添加至对应的文本主题中。
在其中一个实施例中,对待分类文本数据进行分句处理,得到多个文本句,包括:
对待分类文本数据进行文本句的拆分,得到多个初始文本句;
分别对各初始文本句进行关键文本句等级指标的评定,得到各初始文本句的关键文本句等级指标;
根据各关键文本句等级指标,从待分类文本数据的多个初始文本句中筛选出第一预设数量的文本句。
在其中一个实施例中,对各初始文本句进行关键文本句等级指标的评定,得到各初始文本句的文本等级指标,包括:
通过多种不同的指标评定方式对各初始文本句分别进行多次关键文本句等级指标的评定,分别得到各初始文本句的多个初始关键文本句等级指标;
对多个初始关键文本句等级指标进行加权求和,得到各初始文本句的关键文本句等级指标。
在其中一个实施例中,从各文本句中提取出文本句分词以及对应各文本句分词的关联词,以得到各文本句对应的多个关联词组,包括:
对各文本句进行分词处理,分别得到与每一个文本句对应的多个初始文本句分词;
获取相似词数据库,相似词数据库是根据初始文本数据中的词语生成的;
根据相似词数据库,确定每个文本句对应的初始文本句分词中的相似词,并进行相似词的合并处理,得到每个文本句对应的多个目标文本句分词;
确定对应各目标文本句分词的关联词,并根据各目标文本句分词以及各目标文本句分词对应的关联词,得到各文本句对应的多个关联词组。
在其中一个实施例中,确定对应各目标文本句分词的关联词,并根据各目标文本句分词以及各目标文本句分词对应的关联词,得到各文本句对应的多个关联词组,包括:
确定各目标文本句分词的词频,并根据词频分别对每一个文本句对应的多个目标文本句分词进行排序;
从排序后的多个目标文本句分词中确定第二预设数量的目标分词;
获取各目标分词在各文本句中的位置,以根据位置确定对应各目标分词的关联词;
根据各目标分词以及各目标分词对应的关联词,生成多个关联词组。
在其中一个实施例中,相似词数据库的生成方式,包括:
对待分类文本数据进行分词处理,并计算各个分词的词向量;
分别对任意两个分词的词向量进行相似计算,得到任意两个分词的相似度;
当相似度大于预设阈值时,则确定对应的两个分词为相似词,并将两个分词存入相似词数据库。
在其中一个实施例中,将待分类文本数据的各文本句添加至对应的文本主题中,包括:
根据关联词组对各文本句进行分类,得到分别对应各关联词组的文本句集合;
分别对各文本句集合中的文本句进行排序,并从排序后的各文本句集合中确定对应各关联词组的目标文本句;
将各关联词组对应的目标文本句添加至各关联词组对应的文本主题中。
在其中一个实施例中,获取待分类文本数据,包括:
获取采集的音频数据;
将音频数据转换为文本数据,得到初始文本数据;
根据业务信息,从初始文本数据中筛选出对应业务信息的业务的待分类文本数据。
一种文本分类装置,所述装置包括:
获取模块,用于获取待分类文本数据;
分句处理模块,用于对待分类文本数据进行分句处理,得到多个文本句;
关联词组生成模块,用于从各文本句中提取出文本句分词以及对应各文本句分词的关联词,以得到各文本句对应的多个关联词组;
文本主题生成模块,用于根据各关联词组,生成对应的多个文本主题,并将待分类文本数据的各文本句添加至对应的文本主题中。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
上述文本分类方法、装置、计算机设备和存储介质,通过根据获取的待分类文本数据进行分句处理,得到待分类文本数据中的多个文本句,然后从文本句中提取出文本句分词以及对应各文本句分词的关联词,以得到各文本句对应的多个关联词组,然后根据各关联词组,生成多个文本主题,并将待分类文本数据的各文本句添加至对应的文本主题中。关联词组根据多个文本句的分本剧分词以及关联词生成,从而,使得生成的关联词组与多个文本句之间存在关联对应关系,进而使得生成的文本主题与各文本句之间存在关联性,可以提升文本分类的准确性。
附图说明
图1为一个实施例中文本分类方法的应用场景图;
图2为一个实施例中文本分类方法的流程示意图;
图3为一个实施例中对待分类文本数据进行分句处理步骤的流程示意图;
图4为一个实施例中文本分类装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的文本分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102采集音频数据,然后发送至服务器104,以通过服务器104进行处理。具体地,服务器104可以根据接收的音频数据得到待分类文本数据,然后对待分类文本数据进行分句处理,得到多个文本句。进一步,服务器104从各文本句中提取出文本句分词以及对应各文本句分词的关联词,以得到各文本句对应的多个关联词组,然后根据各关联词组,生成对应的多个文本主题,并将待分类文本数据的各文本句添加至对应的文本主题中,实现对文本的分类处理。其中,终端102可以但不限于是各种具备音频数据采集功能的个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种文本分类方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,获取待分类文本数据。
其中,待分类文本数据是指本实施例中用于进行分类处理的文本数据。
具体地,待分类文本数据可以是指一个文本数据,也可以是指多个文本数据。每一个待分类数据中可以包括多个文本句。
在本实施例中,待分类文本数据可以是与某个具体产品业务相关的文本数据,例如,可以是与“人寿险”相关的文本数据,或者与“保险”业务相关的文本数据等。
在本实施例中,服务器可以根据与产品业务相关的关键词,从初始文本数据中获取待分类文本数据,然后进行后续的处理。
步骤S204,对待分类文本数据进行分句处理,得到多个文本句。
具体地,服务器可以根据标点符号规则,如句号“。”、问号“
Figure 7444DEST_PATH_IMAGE002
”以及感叹号“!”等,对文本进行分句处理,从而得到多个文本句。例如,对于待分类文本“您好,我们是人寿保险。请问有什么可以帮助您的吗
Figure 846087DEST_PATH_IMAGE002
”,服务器可以根据标点符号规则,将其分为“您好,我们是人寿保险。”和“请问有什么可以帮助您的吗
Figure 205524DEST_PATH_IMAGE002
”两个句子。
步骤S206,从各文本句中提取出文本句分词以及对应各文本句分词的关联词,以得到各文本句对应的多个关联词组。
其中,关联词组是指存在一定关联关系的词组,一个关联词组中可以包括至少两个关联词,例如“人寿险”“老人”。
在本实施例中,关联词组中的各关联词存在于同一文本句中,并且,关联词组中的两个关联词之间存在一定的位置关系,例如,对于“人寿险”“老人”,其必须存在与同一文本句中,且“人寿险”和“老人”这两个关联词之间的文本距离不超过预设距离。
具体地,服务器可以通过对各文本句进行分词处理后,从得到的分词中提取出多个文本句分词,然后分别获取对应各文本句分词的关联词,进而根据各文本句分词以及对应的关联词,得到对应的多个关联词组。
步骤S208,根据各关联词组,生成对应的多个文本主题,并将待分类文本数据的各文本句添加至对应的文本主题中。
具体地,服务器可以对各关联词组中的文本句分词以及关联词进行组合,以得到对应各关联词组的文本主题。例如,对于关联词组“人寿险”“老人”,可以得到对应的文本主题为“人寿险老人”。
在本实施例中,服务器可以遍历各关联词组,得到对应各关联词组的各文本主题。
进一步,在服务器生成对应的多个文本主题后,可以根据各关联词组,将分句处理得到的各文本句添加至各关联词组对应的文本主题中,以实现对文本进行分类。
上述文本分类方法中,通过根据获取的待分类文本数据进行分句处理,得到待分类文本数据中的多个文本句,然后从文本句中提取出文本句分词以及对应各文本句分词的关联词,以得到各文本句对应的多个关联词组,然后根据各关联词组,生成多个文本主题,并将待分类文本数据的各文本句添加至对应的文本主题中。关联词组根据多个文本句的分本剧分词以及关联词生成,从而,使得生成的关联词组与多个文本句之间存在关联对应关系,进而使得生成的文本主题与各文本句之间存在关联性,可以提升文本分类的准确性。
在其中一个实施例中,参考图3,对待分类文本数据进行分句处理,得到多个文本句,可以包括:
步骤S302,对待分类文本数据进行文本句的拆分,得到多个初始文本句。
如前所述,服务器可以根据标点符号规则,对文本进行分句处理。
具体地,服务器可以根据标点符号规则,对待分类文本数据进行文本句的拆分,将待分类文本数据拆分为多个初始文本句。
步骤S304,分别对各初始文本句进行关键文本句等级指标的评定,得到各初始文本句的关键文本句等级指标。
其中,关键文本句等级指标是用于评判文本句重要性的指标,可以是一个分级的指标,也可以是一个具体的指标分值。
具体地,服务器可以通过多种指标评定方式对各初始文本句进行关键文本句等级指标的评定,例如,TF-IDF评分、TextRank算法、位置信息评分以及业务关键词等,得到各初始文本句的关键文本句等级指标。
步骤S306,根据各关键文本句等级指标,从待分类文本数据的多个初始文本句中筛选出第一预设数量的文本句。
具体地,服务器根据得到的各关键文本句等级指标,对各初始文本句进行排序处理,如按照等级指标进行降序排序,然后从排序后的初始文本句中,选取排序靠前的第一预设数量的初始文本句,以得到多个文本句。
在本实施例中,第一预设数量可以根据具体场景设置,例如,可以是50,也可以是100,服务器可以根据对待分类文本数据进行拆分得到的初始文本句的数量确定第一预设数量。
或者,第一预设数量也可以根据预先设置的文本句与初始文本句的预设占比确定,例如,文本句与初始文本句的预设占比为10%,拆分得到初始文本句数量为2000,则按照预设占比,可以确定第一预设数量的文本句为200。
上述实施例中,通过计算各初始文本句的关键文本句等级指标,然后根据关键文本句等级指标进行文本句的筛选,可以使得筛选出的文本句较为重要,从而可以提升基于文本句得到文本主题的准确性,进而可以提升文本分类的准确性。
在其中一个实施例中,对各初始文本句进行关键文本句等级指标的评定,得到各初始文本句的文本等级指标,可以包括:通过多种不同的指标评定方式对各初始文本句分别进行多次关键文本句等级指标的评定,分别得到各初始文本句的多个初始关键文本句等级指标;对多个初始关键文本句等级指标进行加权求和,得到各初始文本句的关键文本句等级指标。
如前所述,服务器可以通过多种指标评定方式对各初始文本句进行关键文本句等级指标的评定。
在本实施例中,服务器可以分别通过jieba分词、Text Rank算法、基于句子位置信息以及基于业务关键词等多种指标评定方式对各初始文本句进行关键文本句等级指标的评定。
其中,对于jieba分词评定方式,服务器可以先通用工具jieba分词对各初始文本句进行分词,然后根据分词结果计算各初始文本句的TF-IDF评分,以得到第一个初始关键文本句等级指标。
具体地,服务器对各初始文本句进行分词后,计算各初始文本句中各分词的词频(term frequency,TF),然后计算各初始文本句各分词的逆向文件频率(inverse documentfrequency,IDF),进一步计算各初始文本句各分词的TF-IDF评分。
在本实施例中,词频是指的是某一个给定的词语在该文件中出现的频率。在本实施例中,词频可以通过如下公式(1)计算得到的:
Figure 2579DEST_PATH_IMAGE004
(1)
其中,式中分子是该分词在各初始文本句中的出现次数,而分母则是在各初始文本句中所有分词的出现次数之和。
进一步,服务器分别计算各初始文本句各分词的IDF。在本实施例中,IDF是指一个分词普遍重要性的度量。分词的IDF,可以由初始文本句的总的数目除以包含该分词的初始文本句的数目,再将得到的商除以10为底的对数得到,计算公式如公式(2)所示:
Figure 80257DEST_PATH_IMAGE006
(2)
其中,|D|标识初始文本句的总的数目;{j:}表示包含分词的初始文本句的数目,
Figure 722590DEST_PATH_IMAGE008
表示包含第i个分词的初始文本句的数目。
进一步,服务器通过下列公式(3)计算初始文本句中各分词的TF-IDF评分:
Figure 202113DEST_PATH_IMAGE010
(3)
进一步,将各初始文本句每个分词得到的TF-IDF评分进行汇总或者求平均值,仅对比分析,得到初始文本句的TF-IDF评分,即得到各初始文本句的第一个初始关键文本句等级指标。
同理,服务器可以使用TextRank算法计算各初始文本句的得分,得到各初始文本句的第二个初始关键文本句等级指标。Text Rank算法公式如公式(4)所示:
Figure 638911DEST_PATH_IMAGE012
(4)
其中,S表示TextRank得分,
Figure 203884DEST_PATH_IMAGE014
表示初始文本句集合,d表示阻尼系数(即任何2个句子存在1-d的弱相关性,保证算法收敛),ω ji 表示边权重,是由边的次数决定的,
Figure 882865DEST_PATH_IMAGE016
表示
Figure 216895DEST_PATH_IMAGE014
的指向其他句子的边集合,两个句子仅当它们存在k个相似的词汇时存在边,相似的词汇由词向量计算余弦值大于特定阈值确定,
Figure 824593DEST_PATH_IMAGE018
表示指向文本
Figure 876863DEST_PATH_IMAGE020
的所有文本集合。
进一步,服务器可以基于各初始文本句的位置信息,计算初始文本句得分,得到各初始文本句的第三个初始关键文本句等级指标。
具体地,初始文本句的位置在待分类文本数据的段首得分最高,段尾得分最低,例如,段首前N句得100分,末尾M句得0分,中间部分的初始文本句线性计算得分,例如,文本共包含X个句子,第k句得分为(X-M-K)/(X-N-M)*1,得分从1到0线性递减。在其他实施例中,句子包含负面词得分为0。
进一步,服务器可以基于业务关键词,例如理赔,保单,保费,办理等业务关键词,确定各初始文本句的得分,得到各初始文本句的第四个初始关键文本句等级指标。
其中,业务关键词出现次数越多得分越多,或者服务器也可以预先设置阈值条件,当初始文本句中业务关键词出现的次数高于阈值,得1分,出现的次数为0次,得0分,例如,句子中包含业务关键词个数为N,当N>5时,则初始文本句得满分1分,当N=0时,则初始文本句得0分,当N>0且N<5时,初始文本句得分为N/5。
在本实施例中,服务器通过多种不同的指标评定方式对各初始文本句进行多次关键文本句等级指标的评定可以是并行进行,即对于每一初始文本句,并行进行jieba分词、Text Rank算法、基于句子位置信息以及基于业务关键词等多种指标评定方式的评定,从而可以节约处理时间,提升处理速率。
可选地,对于本申请中的多个初始文本句,服务器也可以并行进行关键文本句等级指标的评定,即服务器通过多个线程,并行对多个初始文本句分别进行关键文本句等级指标的评定,可以进一步提升处理速率。
在本实施例中,服务器在得到各初始文本句的多个初始关键文本句等级指标后,可以根据预先设置的权重,对多个初始关键文本句等级指标进行加权求和,从而得到各初始文本句的关键文本句等级指标。
上述实施例中,通过多种不同的指标评定方式对各初始文本句分别进行多次关键文本句等级指标的评定,然后进行加权求和,从而可以从多方面进行初始文本句的关键文本句等级指标的评定,可以提升评定的准确性,进而可以提升后续处理中文本分类的准确性。
在其中一个实施例中,从各文本句中提取出文本句分词以及对应各文本句分词的关联词,以得到各文本句对应的多个关联词组,可以包括:对各文本句进行分词处理,分别得到与每一个文本句对应的多个初始文本句分词;获取相似词数据库,相似词数据库是根据初始文本数据中的词语生成的;根据相似词数据库,确定每个文本句对应的初始文本句分词中的相似词,并进行相似词的合并处理,得到每个文本句对应的多个目标文本句分词;确定对应各目标文本句分词的关联词,并根据各目标文本句分词以及各目标文本句分词对应的关联词,得到各文本句对应的多个关联词组。
具体地,服务器在得到各文本句后,可以通过jieba分词等分词方式,对各文本句进行分词处理,得到与每一个文本句对应的多个初始文本句分词,以及得到各个初始文本句分词的词频。
进一步,服务器可以通过相似词数据库,对得到的初始文本句分词进行相似词的合并处理。例如,对于“猜想”和“猜测”,是存储于相似词数据库中的相似词,则服务器可以根据相似词数据库中确定的“猜想”和“猜测”为相似词,将初始文本句分词中的“猜想”和“猜测”进行合并处理,得到目标文本句分词。
具体地,服务器在进行初始文本句分词中相似词的合并处理时,可以根据词频进行合并处理,例如,对于“猜想”和“猜测”,若“猜想”的词频大于“猜测”的词频,则可以将“猜测”合并至“猜想”,以得到目标文本句分词“猜想”。同理,如果“猜测”的词频大于“猜想”的词频,则可以将“猜想”合并至“猜测”。
进一步,服务器可以根据得到的目标文本句分词,确定对应的各目标文本句分词的关联词,然后根据得到的各目标文本句分词以及对应的关联词,得到各文本句对应的多个关联词组。
上述实施例中,通过相似词数据库对各个初始文本句分词中的相似词进行合并处理,可以减少后续数据处理的数据量,可以提升处理效率。并且,通过向相似词进行合并,可以将具有相似词义的数据进行同一合并处理,使得关联词以及关联词组的建立包含了相似词的信息,从而可有提升后续分类处理的准确性。
在其中一个实施例中,确定对应各目标文本句分词的关联词,并根据各目标文本句分词以及各目标文本句分词对应的关联词,得到各文本句对应的多个关联词组,可以包括:确定各目标文本句分词的词频,并根据词频分别对每一个文本句对应的多个目标文本句分词进行排序;从排序后的多个目标文本句分词中确定第二预设数量的目标分词;获取各目标分词在各文本句中的位置,以根据位置确定对应各目标分词的关联词;根据各目标分词以及各目标分词对应的关联词,生成多个关联词组。
其中,词频是指某个词语出现的频率,在本实施例中,词频是指该词语在待分类文本数据中出现的频率。
在本实施例中,服务器在得到目标文本句分词后,可以根据各目标文本句分词的词频,对每一个文本句对应的多个目标文本句分词进行排序,得到目标文本句分词的排列顺序,例如,可以是按照降序进行排序,词频较高的目标文本句分词排在前面。
进一步,服务器可以从排序后的目标文本句分词中,确定词频最高的第二预设数量的目标文本句分词作为目标分词,然后确定对应各目标分词的关联词,以得到关联词组。
具体地,服务器确定对应各目标分词的关联词可以是根据各目标分词以及对应的相似词在文本句中的位置,确定距离一定文本距离的文本句分词为目标分词对应的关联词。例如,对于目标分词“人寿险”,则服务器可以根据目标分词“人寿险”以及“人寿险”的相似词在文本句中的位置,确定距离目标分词“人寿险”一定文字距离内的多个初始关联词,如,文本句中距离“人寿险”以及“人寿险”的相似词前后20个文字距离内的文本句分词均为目标分词“人寿险”的初始关联词。
然后,服务器可以根据得到的各初始关联词的频次以及各初始关联词与目标分词或相似词的文字距离,从多个初始关联词中确定对应目标分词的关联词,例如,频次越高、文字距离越近的初始关联词可以确定为对应目标分词的关联词。
进一步,服务器可以根据目标分词以及对应的关联词,生成对应的关联词组。
在本实施例中,服务器可以根据目标文本句分词的排列顺序,依次确定词频最高的目标文本句分词为目标分词,并确定目标分词对应的关联词,得到关联词组。然后,服务器再从目标文本句分词中删除该目标分词以及对应的关联词,并从删除后的目标文本句分词中,重新确定排序靠前词频最高的目标文本句分词为目标分词,以及确定对应的关联词,直至得到第二预设数量的目标分词以及对应的关联词,得到第二数量的关联词组。
进一步,服务器可以统计各目标分词以及对应的关联词出现在文本句中的次数,并根据次数对各目标分词对应的关联词组进行降序排序,并确定排序靠前的多个关联词组作为本申请中生成文本主题的关联词组。
上述实施例中,通过对词频进行排序,然后从排序后的目标文本句分词中确定目标分词,可以使得确定的目标分词更加准确。并且,通过词频排序后选取目标分词,避免了从杂乱的数据中选取数据,可以进一步提升选取的准确性,以及可以解决数据选取的时间,提升处理效率。
在其中一个实施例中,相似词数据库的生成方式,可以包括:对待分类文本数据进行分词处理,并计算各个分词的词向量;分别对任意两个分词的词向量进行相似计算,得到任意两个分词的相似度;当相似度大于预设阈值时,则确定对应的两个分词为相似词,并将两个分词存入相似词数据库。
其中,词向量是指机器语言中通过数字化的方式表示语言中的词语的向量。
在本实施例中,服务器可以通过jieba分词等方法,对待分类文本数据中各个文本进行分词处理,得到待分类文本数据中的各个分词,并统计各个分词的词频。
进一步,服务器可以通过词向量计算方式,计算各个分词的词向量,例如,通过word2vec等。
在本实施例中,word2vec(skip-gram)本质是一个三层神经网络,输入当前分词,输出对上下文分词的预测,网络结构示意图如图4所示。
具体地,服务器使用自有语料库处理,生成词典V,对出现次数多的分词进行降序排序。在本实施例中,设置10000个词,不常用的词Id记为0。
进一步,服务器设置训练样本窗口大小,如500,生成一组组的训练样本,各训练样本由one-hot向量构成。
进一步,服务器设置词向量空间大小N,在本实施例中,设置为1000,通过设置的损失函数训练模型,例如,使用最小平方误差函数等,使得模型训练至损失函数最小。
最后,服务器通过模型输出词向量,即输出输入层到隐藏层之间的参数矩阵。
在本实施例中,服务器计算得到各分词的词向量后,可以对待分类文本数据的任意两个分词的词向量进行计算,以得到任意两个分词之间的相似度。具体地,服务器可以并行计算待分类文本数据中任意两个分词之间的相似度,以并行输出任意两个分词之间的相似度。
在本实施例中,服务器在计算得到任意两个分词之间的相似度之后,可以根据预先设置的阈值,对各两个分词之间的相似度进行判定,以确定该两个分词是否为相似词,例如,若预设阈值为80,若计算得到的两个分词“猜想”和“猜测”之间的相似度为90,则服务器可以确定该两个分词“猜想”和“猜测”为相似词。
进一步,服务器将判定为相似词的两个分词存入数据库中,以得到相似词数据库。
可选地,服务器还可以对相似词数据库进行不断的更新,例如增加相似词,删除相似词等。
具体地,服务器可以将相似词数据库中的相似词展示给用户,用户进行进一步的判定,确定相似词的判定是否准确。对于不准确的相似词,服务器可以接收用户的删除指示,根据用户的删除指示删除相似词数据库中对应的相似词。或者对于一些无明确业务含义的词语,服务器也可以根据用户的指示,进行相应的删除操作,例如,电话,太平等词语无具体业务含义,和其他词语组合后,并不能帮助更好的理解这个分组下的句子主题,因此可以删除。从而,通过对相似词数据库进行不断的更新,可以动态对数据库进行维护,提升相似词数据库的准确性。
上述实施例中,通过对待分类文本数据进行分词处理,然后计算词向量以及进行分词间相似度的计算,可以使得相似词的确定更加准确,可以提升建立的相似词数据库的准确性,进而可以后续数据处理的准确性。
在其中一个实施例中,将待分类文本数据的各文本句添加至对应的文本主题中,可以包括:根据关联词组对各文本句进行分类,得到分别对应各关联词组的文本句集合;分别对各文本句集合中的文本句进行排序,并从排序后的各文本句集合中确定对应各关联词组的目标文本句;将各关联词组对应的目标文本句添加至各关联词组对应的文本主题中。
具体地,服务器可以根据各文本句中包含的关联词组,对各文本句进行分类,例如,某个关联词组为“人寿险”“老人”,则服务器可以从文本句中,筛选出包含“人寿险”“老人”的文本句。从而,根据各关联词组遍历各文本句,对各文本句进行分类,得到对应各关联词组的文本句集合。
进一步,服务器可以分别对对应各关联词组的文本句集合分别进行排序,并从排序后的文本句集合中确定对应的目标关键句。例如,服务器通过使用TextRank算法对各文本句集合中各文本句进行排序处理,然后根据排序结果,提取排序后的各文本句集合中的前预设数量个文本句作为目标文本句,例如,5个目标文本句。
进一步,服务器将提取的目标文本句添加至各关联词组对应的文本主题中。例如,对于选取的对应“人寿险”“老人”关联词组的预设数量个目标文本句,可以将其添加至“人寿险老人”对应的文本主题中。
上述实施例中,通过根据关联词组对各文本句进行分类,然后进行排序确定目标文本句,进一步将各关联词组对应的目标文本句添加至各关联词组对应的文本主题中。从而,使得添加至各文本主题中的目标文本句与各文本主题更加匹配,可以提升分类的准确性。
在其中一个实施例中,获取待分类文本数据,可以包括:获取采集的音频数据;将音频数据转换为文本数据,得到初始文本数据;根据业务信息,从初始文本数据中筛选出对应业务信息的业务的待分类文本数据。
其中,音频数据是指通过终端设备采集的语音通话数据,可以是客户电话行为以及客服记录数据。例如,客户与客服进行语音沟通时,终端设备录制的语音通话数据等。
初始文本数据是指对语音数据进行文本转换后所得到的文本数据。初始文本数据中可以包括对应多个产品业务的文本数据。
业务信息是指与具体的产品业务相关的信息,业务信息可以包括某具体产品业务的名称等信息,例如“人寿险”、“保险”等。
在本实施例中,服务器从终端获取音频数据后,可以通过多种不同的方法对音频数据进行文本的转换,以得到对应音频数据的初始文本数据,例如,光学字符识别(OpticalCharacter Recognition,OCR)等。
进一步,服务器可以根据与产品业务相关的业务信息,如产品业务的关键词等,从初始文本数据中筛选出对应产品业务的待分类文本数据,例如,根据关键词“人寿险”,从初始文本数据中筛选出包含关键词“人寿险”的所有的文本数据,得到对应“人寿险”产品业务相关的待分类文本数据,然后进行后续的处理。
上述实施例中,通过获取采集的音频数据,并将音频数据转换为文本数据,得到初始文本数据,然后根据业务信息,从初始文本数据中筛选出对应业务信息的业务的待分类文本数据,从而,使得后续数据的分类是对各业务信息相关的文本数据进行的分类,可以提升分类的准确性。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种文本分类装置,包括:获取模块100、分句处理模块200、关联词组生成模块300和文本主题生成模块400,其中:
获取模块100,用于获取待分类文本数据。
分句处理模块200,用于对待分类文本数据进行分句处理,得到多个文本句。
关联词组生成模块300,用于从各文本句中提取出文本句分词以及对应各文本句分词的关联词,以得到各文本句对应的多个关联词组。
文本主题生成模块400,用于根据各关联词组,生成对应的多个文本主题,并将待分类文本数据的各文本句添加至对应的文本主题中。
在其中一个实施例中,分句处理模块200可以包括:
拆分子模块,用于对待分类文本数据进行文本句的拆分,得到多个初始文本句。
评定子模块,用于分别对各初始文本句进行关键文本句等级指标的评定,得到各初始文本句的关键文本句等级指标。
文本句筛选子模块,用于根据各关键文本句等级指标,从待分类文本数据的多个初始文本句中筛选出第一预设数量的文本句。
在其中一个实施例中,评定子模块可以包括:
评定单元,用于通过多种不同的指标评定方式对各初始文本句分别进行多次关键文本句等级指标的评定,分别得到各初始文本句的多个初始关键文本句等级指标。
加权求和单元,用于对多个初始关键文本句等级指标进行加权求和,得到各初始文本句的关键文本句等级指标。
在其中一个实施例中,关联词组生成模块300可以包括:
分词处理子模块,用于对各文本句进行分词处理,分别得到与每一个文本句对应的多个初始文本句分词。
相似词数据库获取子模块,用于获取相似词数据库,相似词数据库是根据初始文本数据中的词语生成的。
目标文本句分词确定子模块,用于根据相似词数据库,确定每个文本句对应的初始文本句分词中的相似词,并进行相似词的合并处理,得到每个文本句对应的多个目标文本句分词。
关联词生成子模块,用于确定对应各目标文本句分词的关联词,并根据各目标文本句分词以及各目标文本句分词对应的关联词,得到各文本句对应的多个关联词组。
在其中一个实施例中,关联词生成子模块可以包括:
词频确定单元,用于确定各目标文本句分词的词频,并根据词频分别对每一个文本句对应的多个目标文本句分词进行排序。
目标分词确定单元,用于从排序后的多个目标文本句分词中确定第二预设数量的目标分词。
关联词确定单元,用于获取各目标分词在各文本句中的位置,以根据位置确定对应各目标分词的关联词。
关联词组生成单元,用于根据各目标分词以及各目标分词对应的关联词,生成多个关联词组。
在其中一个实施例中,上述装置还可以包括:
相似词数据库生成模块,用于根据初始文本数据中的词语生成相似词数据库。
在本实施例中,相似词数据库生成模块可以包括:
词向量确定子模块,用于对待分类文本数据进行分词处理,并计算各个分词的词向量。
相似度计算子模块,用于分别对任意两个分词的词向量进行相似计算,得到任意两个分词的相似度。
相似词确定子模块,用于当相似度大于预设阈值时,则确定对应的两个分词为相似词,并将两个分词存入相似词数据库。
在其中一个实施例中,文本主题生成模块400可以包括:
分类子模块,用于根据关联词组对各文本句进行分类,得到分别对应各关联词组的文本句集合。
目标文本句确定子模块,用于分别对各文本句集合中的文本句进行排序,并从排序后的各文本句集合中确定对应各关联词组的目标文本句。
添加子模块,用于将各关联词组对应的目标文本句添加至各关联词组对应的文本主题中。
在其中一个实施例中,获取模块100可以包括:
音频数据获取子模块,用于获取采集的音频数据。
转换子模块,用于将音频数据转换为文本数据,得到初始文本数据。
待分类文本数据筛选子模块,用于根据业务信息,从初始文本数据中筛选出对应业务信息的业务的待分类文本数据。
关于文本分类装置的具体限定可以参见上文中对于文本分类方法的限定,在此不再赘述。上述文本分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待分类文本数据、文本句、关联词、关联词组以及文本主题等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本分类方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取待分类文本数据;对待分类文本数据进行分句处理,得到多个文本句;从各文本句中提取出文本句分词以及对应各文本句分词的关联词,以得到各文本句对应的多个关联词组;根据各关联词组,生成对应的多个文本主题,并将待分类文本数据的各文本句添加至对应的文本主题中。
在其中一个实施例中,处理器执行计算机程序时实现对待分类文本数据进行分句处理,得到多个文本句,可以包括:对待分类文本数据进行文本句的拆分,得到多个初始文本句;分别对各初始文本句进行关键文本句等级指标的评定,得到各初始文本句的关键文本句等级指标;根据各关键文本句等级指标,从待分类文本数据的多个初始文本句中筛选出第一预设数量的文本句。
在其中一个实施例中,处理器执行计算机程序时实现对各初始文本句进行关键文本句等级指标的评定,得到各初始文本句的文本等级指标,可以包括:通过多种不同的指标评定方式对各初始文本句分别进行多次关键文本句等级指标的评定,分别得到各初始文本句的多个初始关键文本句等级指标;对多个初始关键文本句等级指标进行加权求和,得到各初始文本句的关键文本句等级指标。
在其中一个实施例中,处理器执行计算机程序时实现从各文本句中提取出文本句分词以及对应各文本句分词的关联词,以得到各文本句对应的多个关联词组,可以包括:对各文本句进行分词处理,分别得到与每一个文本句对应的多个初始文本句分词;获取相似词数据库,相似词数据库是根据初始文本数据中的词语生成的;根据相似词数据库,确定每个文本句对应的初始文本句分词中的相似词,并进行相似词的合并处理,得到每个文本句对应的多个目标文本句分词;确定对应各目标文本句分词的关联词,并根据各目标文本句分词以及各目标文本句分词对应的关联词,得到各文本句对应的多个关联词组。
在其中一个实施例中,处理器执行计算机程序时实现确定对应各目标文本句分词的关联词,并根据各目标文本句分词以及各目标文本句分词对应的关联词,得到各文本句对应的多个关联词组,可以包括:确定各目标文本句分词的词频,并根据词频分别对每一个文本句对应的多个目标文本句分词进行排序;从排序后的多个目标文本句分词中确定第二预设数量的目标分词;获取各目标分词在各文本句中的位置,以根据位置确定对应各目标分词的关联词;根据各目标分词以及各目标分词对应的关联词,生成多个关联词组。
在其中一个实施例中,处理器执行计算机程序时实现相似词数据库的生成方式,可以包括:对待分类文本数据进行分词处理,并计算各个分词的词向量;分别对任意两个分词的词向量进行相似计算,得到任意两个分词的相似度;当相似度大于预设阈值时,则确定对应的两个分词为相似词,并将两个分词存入相似词数据库。
在其中一个实施例中,处理器执行计算机程序时实现将待分类文本数据的各文本句添加至对应的文本主题中,可以包括:根据关联词组对各文本句进行分类,得到分别对应各关联词组的文本句集合;分别对各文本句集合中的文本句进行排序,并从排序后的各文本句集合中确定对应各关联词组的目标文本句;将各关联词组对应的目标文本句添加至各关联词组对应的文本主题中。
在其中一个实施例中,处理器执行计算机程序时实现获取待分类文本数据,可以包括:获取采集的音频数据;将音频数据转换为文本数据,得到初始文本数据;根据业务信息,从初始文本数据中筛选出对应业务信息的业务的待分类文本数据。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待分类文本数据;对待分类文本数据进行分句处理,得到多个文本句;从各文本句中提取出文本句分词以及对应各文本句分词的关联词,以得到各文本句对应的多个关联词组;根据各关联词组,生成对应的多个文本主题,并将待分类文本数据的各文本句添加至对应的文本主题中。
在其中一个实施例中,计算机程序被处理器执行时实现对待分类文本数据进行分句处理,得到多个文本句,可以包括:对待分类文本数据进行文本句的拆分,得到多个初始文本句;分别对各初始文本句进行关键文本句等级指标的评定,得到各初始文本句的关键文本句等级指标;根据各关键文本句等级指标,从待分类文本数据的多个初始文本句中筛选出第一预设数量的文本句。
在其中一个实施例中,计算机程序被处理器执行时实现对各初始文本句进行关键文本句等级指标的评定,得到各初始文本句的文本等级指标,可以包括:通过多种不同的指标评定方式对各初始文本句分别进行多次关键文本句等级指标的评定,分别得到各初始文本句的多个初始关键文本句等级指标;对多个初始关键文本句等级指标进行加权求和,得到各初始文本句的关键文本句等级指标。
在其中一个实施例中,计算机程序被处理器执行时实现从各文本句中提取出文本句分词以及对应各文本句分词的关联词,以得到各文本句对应的多个关联词组,可以包括:对各文本句进行分词处理,分别得到与每一个文本句对应的多个初始文本句分词;获取相似词数据库,相似词数据库是根据初始文本数据中的词语生成的;根据相似词数据库,确定每个文本句对应的初始文本句分词中的相似词,并进行相似词的合并处理,得到每个文本句对应的多个目标文本句分词;确定对应各目标文本句分词的关联词,并根据各目标文本句分词以及各目标文本句分词对应的关联词,得到各文本句对应的多个关联词组。
在其中一个实施例中,计算机程序被处理器执行时实现确定对应各目标文本句分词的关联词,并根据各目标文本句分词以及各目标文本句分词对应的关联词,得到各文本句对应的多个关联词组,可以包括:确定各目标文本句分词的词频,并根据词频分别对每一个文本句对应的多个目标文本句分词进行排序;从排序后的多个目标文本句分词中确定第二预设数量的目标分词;获取各目标分词在各文本句中的位置,以根据位置确定对应各目标分词的关联词;根据各目标分词以及各目标分词对应的关联词,生成多个关联词组。
在其中一个实施例中,计算机程序被处理器执行时实现相似词数据库的生成方式,可以包括:对待分类文本数据进行分词处理,并计算各个分词的词向量;分别对任意两个分词的词向量进行相似计算,得到任意两个分词的相似度;当相似度大于预设阈值时,则确定对应的两个分词为相似词,并将两个分词存入相似词数据库。
在其中一个实施例中,计算机程序被处理器执行时实现将待分类文本数据的各文本句添加至对应的文本主题中,可以包括:根据关联词组对各文本句进行分类,得到分别对应各关联词组的文本句集合;分别对各文本句集合中的文本句进行排序,并从排序后的各文本句集合中确定对应各关联词组的目标文本句;将各关联词组对应的目标文本句添加至各关联词组对应的文本主题中。
在其中一个实施例中,计算机程序被处理器执行时实现获取待分类文本数据,可以包括:获取采集的音频数据;将音频数据转换为文本数据,得到初始文本数据;根据业务信息,从初始文本数据中筛选出对应业务信息的业务的待分类文本数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种文本分类方法,其特征在于,所述方法包括:
获取待分类文本数据;
对所述待分类文本数据进行分句处理,得到多个文本句;
从各所述文本句中提取出文本句分词以及对应各所述文本句分词的关联词,以得到各所述文本句对应的多个关联词组;
根据各所述关联词组,生成对应的多个文本主题,并将所述待分类文本数据的各文本句添加至对应的所述文本主题中;
所述对所述待分类文本数据进行分句处理,得到多个文本句,包括:
对所述待分类文本数据进行文本句的拆分,得到多个初始文本句;
分别对各所述初始文本句进行关键文本句等级指标的评定,得到各所述初始文本句的关键文本句等级指标;
根据各所述关键文本句等级指标,从所述待分类文本数据的多个初始文本句中筛选出第一预设数量的文本句。
2.根据权利要求1所述的方法,其特征在于,所述对各所述初始文本句进行关键文本句等级指标的评定,得到各所述初始文本句的文本等级指标,包括:
通过多种不同的指标评定方式对各所述初始文本句分别进行多次关键文本句等级指标的评定,分别得到各所述初始文本句的多个初始关键文本句等级指标;
对所述多个初始关键文本句等级指标进行加权求和,得到各所述初始文本句的关键文本句等级指标。
3.根据权利要求1所述的方法,其特征在于,所述从各所述文本句中提取出文本句分词以及对应各所述文本句分词的关联词,以得到各所述文本句对应的多个关联词组,包括:
对各所述文本句进行分词处理,分别得到与每一个文本句对应的多个初始文本句分词;
获取相似词数据库,所述相似词数据库是根据所述初始文本句中的词语生成的;
根据所述相似词数据库,确定每个所述文本句对应的初始文本句分词中的相似词,并进行相似词的合并处理,得到每个所述文本句对应的多个目标文本句分词;
确定对应各所述目标文本句分词的关联词,并根据各所述目标文本句分词以及各目标文本句分词对应的关联词,得到各所述文本句对应的多个关联词组。
4.根据权利要求3所述的方法,其特征在于,所述确定对应各所述目标文本句分词的关联词,并根据各所述目标文本句分词以及各目标文本句分词对应的关联词,得到各所述文本句对应的多个关联词组,包括:
确定各所述目标文本句分词的词频,并根据所述词频分别对每一个文本句对应的多个所述目标文本句分词进行排序;
从排序后的所述多个目标文本句分词中确定第二预设数量的目标分词;
获取各所述目标分词在各所述文本句中的位置,以根据所述位置确定对应各所述目标分词的关联词;
根据各所述目标分词以及各目标分词对应的关联词,生成多个关联词组。
5.根据权利要求3所述的方法,其特征在于,所述相似词数据库的生成方式,包括:
对所述待分类文本数据进行分词处理,并计算各个分词的词向量;
分别对任意两个分词的词向量进行相似计算,得到任意两个分词的相似度;
当所述相似度大于预设阈值时,则确定对应的两个分词为相似词,并将所述两个分词存入相似词数据库。
6.根据权利要求1所述的方法,其特征在于,所述将所述待分类文本数据的各文本句添加至对应的所述文本主题中,包括:
根据所述关联词组对各所述文本句进行分类,得到分别对应各所述关联词组的文本句集合;
分别对各所述文本句集合中的文本句进行排序,并从排序后的各所述文本句集合中确定对应各所述关联词组的目标文本句;
将各所述关联词组对应的目标文本句添加至各所述关联词组对应的文本主题中。
7.根据权利要求1所述的方法,其特征在于,所述获取待分类文本数据,包括:
获取采集的音频数据;
将所述音频数据转换为文本数据,得到初始文本数据;
根据业务信息,从所述初始文本数据中筛选出对应所述业务信息的业务的待分类文本数据。
8.一种文本分类装置,其特征在于,所述装置包括:
获取模块,用于获取待分类文本数据;
分句处理模块,用于对所述待分类文本数据进行分句处理,得到多个文本句;
关联词组生成模块,用于从各所述文本句中提取出文本句分词以及对应各所述文本句分词的关联词,以得到各所述文本句对应的多个关联词组;
文本主题生成模块,用于根据各所述关联词组,生成对应的多个文本主题,并将所述待分类文本数据的各文本句添加至对应的所述文本主题中;
所述分句处理模块包括:
拆分子模块,用于对所述待分类文本数据进行文本句的拆分,得到多个初始文本句;
评定子模块,用于分别对各所述初始文本句进行关键文本句等级指标的评定,得到各所述初始文本句的关键文本句等级指标;
文本句筛选子模块,用于根据各所述关键文本句等级指标,从所述待分类文本数据的多个初始文本句中筛选出第一预设数量的文本句。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202111346141.5A 2021-11-15 2021-11-15 文本分类方法、装置、计算机设备和存储介质 Active CN113779259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111346141.5A CN113779259B (zh) 2021-11-15 2021-11-15 文本分类方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111346141.5A CN113779259B (zh) 2021-11-15 2021-11-15 文本分类方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN113779259A true CN113779259A (zh) 2021-12-10
CN113779259B CN113779259B (zh) 2022-03-18

Family

ID=78873936

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111346141.5A Active CN113779259B (zh) 2021-11-15 2021-11-15 文本分类方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113779259B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005025A (ja) * 2002-05-30 2004-01-08 Mazda Motor Corp テキスト分類装置、テキスト分類方法及びそのコンピュータ・プログラム
US8892422B1 (en) * 2012-07-09 2014-11-18 Google Inc. Phrase identification in a sequence of words
CN104408191A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 关键词的关联关键词的获取方法和装置
CN110597988A (zh) * 2019-08-28 2019-12-20 腾讯科技(深圳)有限公司 一种文本分类方法、装置、设备及存储介质
CN111046282A (zh) * 2019-12-06 2020-04-21 贝壳技术有限公司 文本标签设置方法、装置、介质以及电子设备
CN111814482A (zh) * 2020-09-03 2020-10-23 平安国际智慧城市科技股份有限公司 文本关键数据的提取方法、系统和计算机设备
CN112464660A (zh) * 2020-11-25 2021-03-09 平安医疗健康管理股份有限公司 文本分类模型构建方法以及文本数据处理方法
CN113254643A (zh) * 2021-05-28 2021-08-13 北京灵汐科技有限公司 文本分类方法、装置、电子设备和
CN113254653A (zh) * 2021-07-05 2021-08-13 明品云(北京)数据科技有限公司 一种文本分类方法、系统、设备及介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004005025A (ja) * 2002-05-30 2004-01-08 Mazda Motor Corp テキスト分類装置、テキスト分類方法及びそのコンピュータ・プログラム
US8892422B1 (en) * 2012-07-09 2014-11-18 Google Inc. Phrase identification in a sequence of words
CN104408191A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 关键词的关联关键词的获取方法和装置
CN110597988A (zh) * 2019-08-28 2019-12-20 腾讯科技(深圳)有限公司 一种文本分类方法、装置、设备及存储介质
CN111046282A (zh) * 2019-12-06 2020-04-21 贝壳技术有限公司 文本标签设置方法、装置、介质以及电子设备
CN111814482A (zh) * 2020-09-03 2020-10-23 平安国际智慧城市科技股份有限公司 文本关键数据的提取方法、系统和计算机设备
CN112464660A (zh) * 2020-11-25 2021-03-09 平安医疗健康管理股份有限公司 文本分类模型构建方法以及文本数据处理方法
CN113254643A (zh) * 2021-05-28 2021-08-13 北京灵汐科技有限公司 文本分类方法、装置、电子设备和
CN113254653A (zh) * 2021-07-05 2021-08-13 明品云(北京)数据科技有限公司 一种文本分类方法、系统、设备及介质

Also Published As

Publication number Publication date
CN113779259B (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
US7689408B2 (en) Identifying language of origin for words using estimates of normalized appearance frequency
CN108536800B (zh) 文本分类方法、系统、计算机设备和存储介质
CN110598206A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN103425777B (zh) 一种基于改进贝叶斯分类的短信智能分类及搜索方法
JP5216063B2 (ja) 未登録語のカテゴリを決定する方法と装置
CN108920633B (zh) 一种论文相似度的检测方法
CN111090719B (zh) 文本分类方法、装置、计算机设备及存储介质
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN107885717B (zh) 一种关键词提取方法及装置
CN112347223B (zh) 文档检索方法、设备及计算机可读存储介质
CN109829154B (zh) 基于语义的人格预测方法、用户设备、存储介质及装置
CN112395875A (zh) 一种关键词提取方法、装置、终端以及存储介质
JP5692074B2 (ja) 情報分類装置、情報分類方法、及びプログラム
CN111680152A (zh) 目标文本的摘要提取方法及装置、电子设备、存储介质
CN107092679B (zh) 一种特征词向量获得方法、文本分类方法及装置
CN110765767B (zh) 局部优化关键词的提取方法、装置、服务器及存储介质
CN110362592B (zh) 裁决指引信息推送方法、装置、计算机设备和存储介质
Lim Improving kNN based text classification with well estimated parameters
CN113779259B (zh) 文本分类方法、装置、计算机设备和存储介质
CN109918661B (zh) 同义词获取方法及装置
CN110888977B (zh) 文本分类方法、装置、计算机设备和存储介质
CN112926297B (zh) 处理信息的方法、装置、设备和存储介质
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质
JP7409484B2 (ja) リスク評価装置、リスク評価方法およびプログラム
KR102357023B1 (ko) 대화 분절 문장의 복원을 위한 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant