CN111026835A - 一种聊天主题检测方法、装置、存储介质 - Google Patents

一种聊天主题检测方法、装置、存储介质 Download PDF

Info

Publication number
CN111026835A
CN111026835A CN201911365829.0A CN201911365829A CN111026835A CN 111026835 A CN111026835 A CN 111026835A CN 201911365829 A CN201911365829 A CN 201911365829A CN 111026835 A CN111026835 A CN 111026835A
Authority
CN
China
Prior art keywords
paragraph
topics
topic
chat
turning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911365829.0A
Other languages
English (en)
Other versions
CN111026835B (zh
Inventor
郑伟斌
赵建强
陈诚
庄灿波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN201911365829.0A priority Critical patent/CN111026835B/zh
Publication of CN111026835A publication Critical patent/CN111026835A/zh
Application granted granted Critical
Publication of CN111026835B publication Critical patent/CN111026835B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种聊天主题检测方法、装置及存储介质,该方法包括:将获取的聊天内容基于发送时间间隔分为M个段落;对所述M个段落进行预处理得到预处理后的M个段落;使用K种主题检测算法对所述预处理后的M个段落进行主题检测得到K*M个段落主题;对所述K*M个段落主题进行聚合排序,将排序在前n个的主题作为聊天主题。本发明针对聊天场景设计了基于发送时间间隔的分段方法对聊天文本建模,针对聊天数据特点设计一系列数据噪声过滤方法对聊天数据进行预处理,提升后续话题检测的性能,先使用多种算法进行主题检测,检测后基于概率再进行主题聚合,提高了主题检测的准确性,提高了用户体验。

Description

一种聊天主题检测方法、装置、存储介质
技术领域
本发明涉及人工智能技术领域,一种聊天主题检测方法、装置、存储介质。
背景技术
随着近些年移动终端的飞速发展,手机已经成为人们日常生活中不可或缺的工具。手机中的QQ、微信等即时通讯软件每天都会产生极为庞大的聊天数据。人们在这些软件上谈论着学习、工作、政治、娱乐等各式各样的内容,这些聊天记录中往往隐含一个或多个聊天话题。目前发现聊天中隐藏话题的方式主要是依靠人工通过浏览聊天内容进行归纳总结得到,在聊天数据量大时费时费力。
另外,目前话题检测技术主要的应用场景为新闻、微博、评论等文字结构规整、特征较为明显的文本中。而聊天中的文字较为随性、特征稀疏且内容中存在大量噪声,现有的话题检测算法无法有效的检测出聊天中的隐藏话题。
因此,现有技术中的缺陷为:1、传统挖掘聊天中话题的方式主要依靠人工从聊天记录中归纳总结,面对巨大的数据量力不从心;2、现有的话题检测算法多是应用于微博、新闻等文本上,在聊天数据场景的应用较少;3、聊天数据的特点导致现有话题(也就是说话的主题,也称为主题)检测算法(如微博、新闻)直接应用效果不佳。
可见,在现有技术中,对聊天内容中的主题检测效率低、准确度不高,现有技术中没有专门针对聊天内容进行主题检测的相关方法。
发明内容
本发明针对上述现有技术中的缺陷,提出了如下技术方案。
一种聊天主题检测方法,该方法包括:
分段步骤,将获取的聊天内容基于发送时间间隔分为M个段落;
预处理步骤,对所述M个段落进行预处理得到预处理后的M个段落;
主题检测步骤,使用K种主题检测算法对所述预处理后的M个段落进行主题检测得到K*M个段落主题;
聚合步骤,对所述K*M个段落主题进行聚合排序,将排序在前n个的主题作为聊天主题。
更进一步地,所述分段步骤的操作为:
a.获取聊天内容,并将所述聊天内容的起始位置设置为行号i=0;
b.判断第i行与第i+1行的聊天时间间隔是否大于10分钟,如果是,则转到步骤c,如果否,则转到步骤d;
c.判断段落长度是否大于10行或段落字数是否大于150字,如果是,则转到步骤e,如果否,则转到步骤d;
d.将第i行和第i+1行进行段落合并,将行号i加1,转到步骤b;
e.判断段落行数是否大于80,如果是,则转到步骤f,如果否,则转到步骤g;
f.确定该段落50行到80行中时间间隔最大的两行进行段落切分,将行号i指向段落的最后一行,转到步骤e;
g.进行段落切分,行号i指向段落的最后一行,转到步骤h;
h.判断行号i是否指向所述聊天内容的最后一行,如果是,则结束,如果否,则转到步骤b。
更进一步地,所述预处理为聊天内容进行过滤。
更进一步地,所述主题检测步骤的操作为:将预处理后的M个段落中的每个段落通过K个主题检测算法获取该段落的主题概率分布p,p表示该段落属于各个主题的概率值,满足
Figure BDA0002338395080000031
其中N为总主题个数;每个算法取概率最大值pmax作为代表该段落的主题称为段落主题,所有段落计算完成后,得到K个段落主题集合,每个主题集合中含M个段落主题,共K*M个段落主题。
更进一步地,所述聚合步骤的操作为:对K个主题检测算法中的每个算法得到的M个段落主题进行主题合并,相同主题的概率值相加,将每个主题检测算法按照概率值排序后输出不超过5个反映整个聊天的主题称为表征主题,对所述表征主题的概率值分别进行归一化,若每个主题检测算法输出的表征主题个数为w,则归一化公式为:
Figure BDA0002338395080000032
其中pj表示表征主题的第j个概率值,
Figure BDA0002338395080000033
表示归一化之后的概率值,将每个主题检测算法的相同表征主题进行合并,并对对应的归一化概率值相加,按概率值从高低排序输出n个主题作为所述聊天内容的主题。
本发明还提出了一种聊天主题检测装置,该装置包括:
分段单元,用于将获取的聊天内容基于发送时间间隔分为M个段落;
预处理单元,用于对所述M个段落进行预处理得到预处理后的M个段落;
主题检测单元,用于使用K种主题检测算法对所述预处理后的M个段落进行主题检测得到K*M个段落主题;
聚合单元,用于对所述K*M个段落主题进行聚合排序,将排序在前n个的主题作为聊天主题。
更进一步地,所述分段单元执行的操作为:
a.获取聊天内容,并将所述聊天内容的起始位置设置为行号i=0;
b.判断第i行与第i+1行的聊天时间间隔是否大于10分钟,如果是,则转到步骤c,如果否,则转到步骤d;
c.判断段落长度是否大于10行或段落字数是否大于150字,如果是,则转到步骤e,如果否,则转到步骤d;
d.将第i行和第i+1行进行段落合并,将行号i加1,转到步骤b;
e.判断段落行数是否大于80,如果是,则转到步骤f,如果否,则转到步骤g;
f.确定该段落50行到80行中时间间隔最大的两行进行段落切分,将行号i指向段落的最后一行,转到步骤e;
g.进行段落切分,行号i指向段落的最后一行,转到步骤h;
h.判断行号i是否指向所述聊天内容的最后一行,如果是,则结束,如果否,则转到步骤b。
更进一步地,所述预处理为聊天内容进行过滤。
更进一步地,所述主题检测单元执行的操作为:将预处理后的M个段落中的每个段落通过K个主题检测算法获取该段落的主题概率分布p,p表示该段落属于各个主题的概率值,满足
Figure BDA0002338395080000051
其中N为总主题个数;每个算法取概率最大值pmax作为代表该段落的主题称为段落主题,所有段落计算完成后,得到K个段落主题集合,每个主题集合中含M个段落主题,共K*M个段落主题。
更进一步地,所述聚合单元执行的操作为:对K个主题检测算法中的每个算法得到的M个段落主题进行主题合并,相同主题的概率值相加,将每个主题检测算法按照概率值排序后输出不超过5个反映整个聊天的主题称为表征主题,对所述表征主题的概率值分别进行归一化,若每个主题检测算法输出的表征主题个数为w,则归一化公式为:
Figure BDA0002338395080000052
其中pj表示表征主题的第j个概率值,
Figure BDA0002338395080000053
表示归一化之后的概率值,将每个主题检测算法的相同表征主题进行合并,并对对应的归一化概率值相加,按概率值从高低排序输出n个主题作为所述聊天内容的主题。
本发明还提出了一种计算机可读存储介质,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述之任一的装置。
本发明的技术效果在于:本发明的一种聊天主题检测方法,该方法包括:
将获取的聊天内容基于发送时间间隔分为M个段落;对所述M个段落进行预处理得到预处理后的M个段落;使用K种主题检测算法对所述预处理后的M个段落进行主题检测得到K*M个段落主题;对所述K*M个段落主题进行聚合排序,将排序在前n个的主题作为聊天主题。本发明针对聊天场景设计了基于发送时间间隔的分段方法对聊天文本建模,针对聊天数据特点设计一系列数据噪声过滤方法对聊天数据进行预处理,提升后续话题检测的性能,先使用多种算法进行主题检测,检测后基于概率再进行主题聚合,提高了主题检测的准确性,提高了用户体验。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1是根据本发明的实施例的一种聊天主题检测方法的流程图。
图2是根据本发明的实施例的分段方法的流程图。
图3是根据本发明的实施例的主题检测方法的流程图。
图4是根据本发明的实施例的具体聚类方法的流程图。
图5是根据本发明的实施例的一种聊天主题检测装置的结构图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了本发明的一种聊天主题检测方法,该方法包括:
分段步骤S101,将获取的聊天内容基于发送时间间隔分为M个段落;本发明所称的聊天内容可以是来自即时通讯工具中的聊天记录,比如微信、QQ、支付宝等等的聊天记录,也可以是手机短信的聊天记录,其中M为大于或等于1的整数。
预处理步骤S102,对所述M个段落进行预处理得到预处理后的M个段落;针对群聊天数据存在大量数据噪声、数据特征稀疏的问题,本方法基于正则表达式设计了一系列数据预处理算法用以过滤多余信息,具体过滤内容包括:视频、图像、红包、网页等链接过滤、系统消息过滤、表情符号过滤、停用词过滤、其他乱码过滤。比如,网址中包括http、www等等,可设计正则表达式将其过滤掉。
主题检测步骤S103,使用K种主题检测算法对所述预处理后的M个段落进行主题检测得到K*M个段落主题;通过K种话题检测算法(比如,LDA、pLSA、K-means等)分别获取每个段落的话题概率分布,K为大于或等于3的整数。LDA、pLSA、K-means这些算法是本领域成熟的算法,在使用前需要对其进行训练,训练一般采用人工标注的样本进行,训练完成后才可以使用这些算法进行主题检测。
聚合步骤S104,对所述K*M个段落主题进行聚合排序,将排序在前n个的主题作为聊天主题。
如图2所示,所述分段步骤S101的操作为:
a.获取聊天内容,并将所述聊天内容的起始位置设置为行号i=0;
b.判断第i行与第i+1行的聊天时间间隔是否大于10分钟,如果是,则转到步骤c,如果否,则转到步骤d;
c.判断段落长度是否大于10行或段落字数是否大于150字,如果是,则转到步骤e,如果否,则转到步骤d;
d.将第i行和第i+1行进行段落合并,将行号i加1,转到步骤b;
e.判断段落行数是否大于80,如果是,则转到步骤f,如果否,则转到步骤g;
f.确定该段落50行到80行中时间间隔最大的两行进行段落切分,将行号i指向段落的最后一行,转到步骤e;
g.进行段落切分,行号i指向段落的最后一行,转到步骤h;
h.判断行号i是否指向所述聊天内容的最后一行,如果是,则结束,如果否,则转到步骤b。
本发明设计了基于发送时间间隔的分段方法,从而将聊天内容分成多个段落;这提现了聊天环境的特点,即在一段时间内的聊天主题一般来说更加近似,这样使得后续的主题检测更为准确,该分段方法是本发明独创的,属于本发明的一个重要发明点。
在一个实施例中,如图3所示,所述主题检测步骤S103的操作为:将预处理后的M个段落中的每个段落通过K个主题检测算法获取该段落的主题概率分布p,p表示该段落属于各个主题的概率值,满足
Figure BDA0002338395080000091
其中N为总主题个数;每个算法取概率最大值pmax作为代表该段落的主题称为段落主题,所有段落计算完成后,得到K个段落主题集合,每个主题集合中含M个段落主题,共K*M个段落主题。
在一个实施例中,如图4所示,所述聚合步骤S104的操作为:对K个主题检测算法中的每个算法得到的M个段落主题进行主题合并,相同主题的概率值相加,将每个主题检测算法按照概率值排序后输出不超过5个反映整个聊天的主题称为表征主题,对所述表征主题的概率值分别进行归一化,若每个主题检测算法输出的表征主题个数为w,则归一化公式为:
Figure BDA0002338395080000092
其中pj表示表征主题的第j个概率值,
Figure BDA0002338395080000093
表示归一化之后的概率值,将每个主题检测算法的相同表征主题进行合并,并对对应的归一化概率值相加,按概率值从高低排序输出n个主题作为所述聊天内容的主题,一般来说n=3。
本方法先使用多种算法进行主题检测,检测后基于概率再进行主题聚合,提高了主题检测的准确性,提高了用户体验,并提出具体的主题聚合公式,这是本发明的另一个重要发明点。
图5示出了本发明的本发明的一种聊天主题检测装置,该装置包括:
分段单元501,将获取的聊天内容基于发送时间间隔分为M个段落;本发明所称的聊天内容可以是来自即时通讯工具中的聊天记录,比如微信、QQ、支付宝等等的聊天记录,也可以是手机短信的聊天记录,其中M为大于或等于1的整数。
预处理单元502,对所述M个段落进行预处理得到预处理后的M个段落;针对群聊天数据存在大量数据噪声、数据特征稀疏的问题,本发明基于正则表达式设计了一系列数据预处理算法用以过滤多余信息,具体过滤内容包括:视频、图像、红包、网页等链接过滤、系统消息过滤、表情符号过滤、停用词过滤、其他乱码过滤。比如,网址中包括http、www等等,可设计正则表达式将其过滤掉
主题检测单元503,使用K种主题检测算法对所述预处理后的M个段落进行主题检测得到K*M个段落主题;通过K种话题检测算法(比如,LDA、pLSA、K-means等)分别获取每个段落的话题概率分布,K为大于或等于3的整数。LDA、pLSA、K-means这些算法是本领域成熟的算法,在使用前需要对其进行训练,训练一般采用人工标注的样本进行,训练完成后才可以使用这些算法进行主题检测。
聚合单元504,对所述K*M个段落主题进行聚合排序,将排序在前n个的主题作为聊天主题。
如图2所示,所述分段单元501执行的操作为:
a.获取聊天内容,并将所述聊天内容的起始位置设置为行号i=0;
b.判断第i行与第i+1行的聊天时间间隔是否大于10分钟,如果是,则转到步骤c,如果否,则转到步骤d;
c.判断段落长度是否大于10行或段落字数是否大于150字,如果是,则转到步骤e,如果否,则转到步骤d;
d.将第i行和第i+1行进行段落合并,将行号i加1,转到步骤b;
e.判断段落行数是否大于80,如果是,则转到步骤f,如果否,则转到步骤g;
f.确定该段落50行到80行中时间间隔最大的两行进行段落切分,将行号i指向段落的最后一行,转到步骤e;
g.进行段落切分,行号i指向段落的最后一行,转到步骤h;
h.判断行号i是否指向所述聊天内容的最后一行,如果是,则结束,如果否,则转到步骤b。
本发明设计了基于发送时间间隔的分段方法,从而将聊天内容分成多个段落;这提现了聊天环境的特点,即在一段时间内的聊天主题一般来说更加近似,这样使得后续的主题检测更为准确,该分段方法是本发明独创的,属于本发明的一个重要发明点。
在一个实施例中,如图3所示,所述主题检测单元503执行的操作为:将预处理后的M个段落中的每个段落通过K个主题检测算法获取该段落的主题概率分布p,p表示该段落属于各个主题的概率值,满足
Figure BDA0002338395080000121
其中N为总主题个数;每个算法取概率最大值pmax作为代表该段落的主题称为段落主题,所有段落计算完成后,得到K个段落主题集合,每个主题集合中含M个段落主题,共K*M个段落主题。
在一个实施例中,如图4所示,所述聚合单元504执行的操作为:对K个主题检测算法中的每个算法得到的M个段落主题进行主题合并,相同主题的概率值相加,将每个主题检测算法按照概率值排序后输出不超过5个反映整个聊天的主题称为表征主题,对所述表征主题的概率值分别进行归一化,若每个主题检测算法输出的表征主题个数为w,则归一化公式为:
Figure BDA0002338395080000122
其中pj表示表征主题的第j个概率值,
Figure BDA0002338395080000123
表示归一化之后的概率值,将每个主题检测算法的相同表征主题进行合并,并对对应的归一化概率值相加,按概率值从高低排序输出n个主题作为所述聊天内容的主题,一般来说n=3。
本装置先使用多种算法进行主题检测,检测后基于概率再进行主题聚合,提高了主题检测的准确性,提高了用户体验,并提出具体的主题聚合公式,这是本发明的另一个重要发明点。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的装置。
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。

Claims (11)

1.一种聊天主题检测方法,其特征在于,该方法包括:
分段步骤,将获取的聊天内容基于发送时间间隔分为M个段落;
预处理步骤,对所述M个段落进行预处理得到预处理后的M个段落;
主题检测步骤,使用K种主题检测算法对所述预处理后的M个段落进行主题检测得到K*M个段落主题;
聚合步骤,对所述K*M个段落主题进行聚合排序,将排序在前n个的主题作为聊天主题。
2.根据权利要求1所述的方法,其特征在于,所述分段步骤的操作为:
a.获取聊天内容,并将所述聊天内容的起始位置设置为行号i=0;
b.判断第i行与第i+1行的聊天时间间隔是否大于10分钟,如果是,则转到步骤c,如果否,则转到步骤d;
c.判断段落长度是否大于10行或段落字数是否大于150字,如果是,则转到步骤e,如果否,则转到步骤d;
d.将第i行和第i+1行进行段落合并,将行号i加1,转到步骤b;
e.判断段落行数是否大于80,如果是,则转到步骤f,如果否,则转到步骤g;
f.确定该段落50行到80行中时间间隔最大的两行进行段落切分,将行号i指向段落的最后一行,转到步骤e;
g.进行段落切分,行号i指向段落的最后一行,转到步骤h;
h.判断行号i是否指向所述聊天内容的最后一行,如果是,则结束,如果否,则转到步骤b。
3.根据权利要求1或2所述的方法,其特征在于,所述预处理为聊天内容进行过滤。
4.根据权利要求3所述的方法,其特征在于,所述主题检测步骤的操作为:
将预处理后的M个段落中的每个段落通过K个主题检测算法获取该段落的主题概率分布p,p表示该段落属于各个主题的概率值,满足
Figure FDA0002338395070000021
其中N为总主题个数;每个算法取概率最大值pmax作为代表该段落的主题称为段落主题,所有段落计算完成后,得到K个段落主题集合,每个主题集合中含M个段落主题,共K*M个段落主题。
5.根据权利要求4所述的方法,其特征在于,所述聚合步骤的操作为:对K个主题检测算法中的每个算法得到的M个段落主题进行主题合并,相同主题的概率值相加,将每个主题检测算法按照概率值排序后输出不超过5个反映整个聊天的主题称为表征主题,对所述表征主题的概率值分别进行归一化,若每个主题检测算法输出的表征主题个数为w,则归一化公式为:
Figure FDA0002338395070000022
其中pj表示表征主题的第j个概率值,
Figure FDA0002338395070000023
表示归一化之后的概率值,将每个主题检测算法的相同表征主题进行合并,并对对应的归一化概率值相加,按概率值从高低排序输出n个主题作为所述聊天内容的主题。
6.一种聊天主题检测装置,其特征在于,该装置包括:
分段单元,用于将获取的聊天内容基于发送时间间隔分为M个段落;
预处理单元,用于对所述M个段落进行预处理得到预处理后的M个段落;
主题检测单元,用于使用K种主题检测算法对所述预处理后的M个段落进行主题检测得到K*M个段落主题;
聚合单元,用于对所述K*M个段落主题进行聚合排序,将排序在前n个的主题作为聊天主题。
7.根据权利要求6所述的装置,其特征在于,所述分段单元执行的操作为:
a.获取聊天内容,并将所述聊天内容的起始位置设置为行号i=0;
b.判断第i行与第i+1行的聊天时间间隔是否大于10分钟,如果是,则转到步骤c,如果否,则转到步骤d;
c.判断段落长度是否大于10行或段落字数是否大于150字,如果是,则转到步骤e,如果否,则转到步骤d;
d.将第i行和第i+1行进行段落合并,将行号i加1,转到步骤b;
e.判断段落行数是否大于80,如果是,则转到步骤f,如果否,则转到步骤g;
f.确定该段落50行到80行中时间间隔最大的两行进行段落切分,将行号i指向段落的最后一行,转到步骤e;
g.进行段落切分,行号i指向段落的最后一行,转到步骤h;
h.判断行号i是否指向所述聊天内容的最后一行,如果是,则结束,如果否,则转到步骤b。
8.根据权利要求6或7所述的装置,其特征在于,所述预处理为聊天内容进行过滤。
9.根据权利要求8所述的方法,其特征在于,所述主题检测单元执行的操作为:
将预处理后的M个段落中的每个段落通过K个主题检测算法获取该段落的主题概率分布p,p表示该段落属于各个主题的概率值,满足
Figure FDA0002338395070000041
其中N为总主题个数;每个算法取概率最大值pmax作为代表该段落的主题称为段落主题,所有段落计算完成后,得到K个段落主题集合,每个主题集合中含M个段落主题,共K*M个段落主题。
10.根据权利要求9所述的装置,其特征在于,所述聚合单元执行的操作为:对K个主题检测算法中的每个算法得到的M个段落主题进行主题合并,相同主题的概率值相加,将每个主题检测算法按照概率值排序后输出不超过5个反映整个聊天的主题称为表征主题,对所述表征主题的概率值分别进行归一化,若每个主题检测算法输出的表征主题个数为w,则归一化公式为:
Figure FDA0002338395070000042
其中pj表示表征主题的第j个概率值,
Figure FDA0002338395070000051
表示归一化之后的概率值,将每个主题检测算法的相同表征主题进行合并,并对对应的归一化概率值相加,按概率值从高低排序输出n个主题作为所述聊天内容的主题。
11.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行权利要求1-5之任一的装置。
CN201911365829.0A 2019-12-26 2019-12-26 一种聊天主题检测方法、装置、存储介质 Active CN111026835B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911365829.0A CN111026835B (zh) 2019-12-26 2019-12-26 一种聊天主题检测方法、装置、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911365829.0A CN111026835B (zh) 2019-12-26 2019-12-26 一种聊天主题检测方法、装置、存储介质

Publications (2)

Publication Number Publication Date
CN111026835A true CN111026835A (zh) 2020-04-17
CN111026835B CN111026835B (zh) 2022-06-10

Family

ID=70213706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911365829.0A Active CN111026835B (zh) 2019-12-26 2019-12-26 一种聊天主题检测方法、装置、存储介质

Country Status (1)

Country Link
CN (1) CN111026835B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131377A (zh) * 2020-08-12 2020-12-25 北京邮电大学 基于多策略的群聊话题检测方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599071A (zh) * 2009-07-10 2009-12-09 华中科技大学 对话文本主题的自动提取方法
CN106844416A (zh) * 2016-11-17 2017-06-13 中国科学院计算技术研究所 一种子话题挖掘方法
CN107423337A (zh) * 2017-04-27 2017-12-01 天津大学 基于lda融合模型和多层聚类的新闻话题检测方法
CN108415910A (zh) * 2017-02-09 2018-08-17 中国传媒大学 基于时间序列的话题发展聚类分析系统和方法
US20190173812A1 (en) * 2017-12-01 2019-06-06 International Business Machines Corporation Identifying Different Chat Topics in a Communication Channel Using Cognitive Data Science
CN110399489A (zh) * 2019-07-08 2019-11-01 厦门市美亚柏科信息股份有限公司 一种聊天数据分段方法、装置及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101599071A (zh) * 2009-07-10 2009-12-09 华中科技大学 对话文本主题的自动提取方法
CN106844416A (zh) * 2016-11-17 2017-06-13 中国科学院计算技术研究所 一种子话题挖掘方法
CN108415910A (zh) * 2017-02-09 2018-08-17 中国传媒大学 基于时间序列的话题发展聚类分析系统和方法
CN107423337A (zh) * 2017-04-27 2017-12-01 天津大学 基于lda融合模型和多层聚类的新闻话题检测方法
US20190173812A1 (en) * 2017-12-01 2019-06-06 International Business Machines Corporation Identifying Different Chat Topics in a Communication Channel Using Cognitive Data Science
CN110399489A (zh) * 2019-07-08 2019-11-01 厦门市美亚柏科信息股份有限公司 一种聊天数据分段方法、装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
田野等: "短信息的会话检测及组织", 《软件学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112131377A (zh) * 2020-08-12 2020-12-25 北京邮电大学 基于多策略的群聊话题检测方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111026835B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
US20200342314A1 (en) Method and System for Detecting Fake News Based on Multi-Task Learning Model
CN108874776B (zh) 一种垃圾文本的识别方法及装置
CN108595422B (zh) 一种过滤不良彩信的方法
CN106202053B (zh) 一种社交关系驱动的微博主题情感分析方法
TWI749349B (zh) 文本還原方法、裝置及電子設備與電腦可讀儲存媒體
CN111221970A (zh) 基于行为结构和语义内容联合分析的邮件分类方法及装置
CN106649338B (zh) 信息过滤策略生成方法及装置
CN111488813B (zh) 视频的情感标注方法、装置、电子设备及存储介质
CN111026835B (zh) 一种聊天主题检测方法、装置、存储介质
US20170229118A1 (en) Linguistic model database for linguistic recognition, linguistic recognition device and linguistic recognition method, and linguistic recognition system
KR20070008210A (ko) 유해 멀티미디어 정보 차단 방법 및 장치
CN110516066B (zh) 一种文本内容安全防护方法和装置
US11438346B2 (en) Restrict transmission of manipulated content in a networked environment
CN115374793B (zh) 基于服务场景识别的语音数据处理方法及相关装置
CN114840477B (zh) 一种基于云会议的文件敏感指数确定方法及相关产品
CN113010664B (zh) 一种数据处理方法、装置及计算机设备
CN115438629A (zh) 数据处理方法、装置、存储介质及电子设备
CN113157993A (zh) 一种基于时序图极化分析的网络水军行为预警模型
CN102984076A (zh) 流量业务类型识别方法和装置
CN114091586A (zh) 一种账号识别模型确定方法、装置、设备及介质
CN108647201B (zh) 一种基于移动应用的分类识别方法及系统
CN110149810B (zh) 限制在网络环境中操纵内容的传输系统和方法及数字助理装置
CN113869041A (zh) 关键词组合提取方法、装置和电子设备
CN111666268A (zh) 一种微博大数据舆情分析方法
CN113536806B (zh) 一种文本分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant