CN107133226B - 一种区分主题的方法及装置 - Google Patents

一种区分主题的方法及装置 Download PDF

Info

Publication number
CN107133226B
CN107133226B CN201610107373.8A CN201610107373A CN107133226B CN 107133226 B CN107133226 B CN 107133226B CN 201610107373 A CN201610107373 A CN 201610107373A CN 107133226 B CN107133226 B CN 107133226B
Authority
CN
China
Prior art keywords
theme
data
clustering
topic
distinguishing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610107373.8A
Other languages
English (en)
Other versions
CN107133226A (zh
Inventor
蔡宁
张凯
杨旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610107373.8A priority Critical patent/CN107133226B/zh
Priority to TW106104132A priority patent/TW201734759A/zh
Priority to JP2018543228A priority patent/JP2019510301A/ja
Priority to PCT/CN2017/073445 priority patent/WO2017143920A1/zh
Publication of CN107133226A publication Critical patent/CN107133226A/zh
Priority to US16/112,623 priority patent/US20180366106A1/en
Application granted granted Critical
Publication of CN107133226B publication Critical patent/CN107133226B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种区分主题的方法及装置,用于识别待训练数据属于已知主题还是新主题,所述区分主题的方法从已知主题对应的数据中抽取数据进行标注,将标注的数据与待训练数据合并成训练数据集;然后对训练数据集进行聚类,聚类得到训练数据所属的主题;最后根据标注的数据来区分聚类得到的主题是已知主题还是新主题。本发明的装置包括数据抽取模块、聚类模块和主题区分模块。本发明的方法及装置减少了人对问题的理解和机器对问题理解的差异,能够准确地区分客户所提出的问题。

Description

一种区分主题的方法及装置
技术领域
本发明属于数据处理技术领域,尤其涉及一种区分主题的方法及装置。
背景技术
用户在使用产品或者服务的时候经常会遇到自己无法处理的问题,或者需要咨询的问题,进而会寻求客服帮助。每天用户的咨询量非常大,咨询的角度也不同,很多用户都在问相同的问题,有些是客服已经知道的老问题,有一些是没有被发现的新问题。
了解用户提出的问题,可以对产品的设计和改进提供帮助。例如如果发现新问题,有可能是产品需要改进的点。如果老问题的咨询量变多或者变少,则可能是某个功能块用户数减少,也是需要引起注意的。因此,如何从大规模的对话中找出问题,并且能区分出新问题和老问题,是非常必要的并且重要的。
LDA(Latent Dirichlet Allocation)方法是一种文档主题生成模型,非常适合从大量的对话中获取问题,每一篇文档代表了一些主题所构成的一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。语料库中的每一篇文档与T(通过反复试验等方法事先给定)个主题的一个多项分布相对应,将该多项分布记为θ。每个主题又与词汇表(vocabulary)中的V个单词的一个多项分布相对应,将这个多项分布记为φ。上述词汇表是由语料库中所有文档中的所有互异单词组成,但实际建模的时候要剔除一些停用词(stopword),还要进行一些词干化(stemming)处理等。θ和φ分别有一个带有超参数(hyperparameter)α和β的Dirichlet先验分布。对于一篇文档d中的每一个单词,从该文档所对应的多项分布θ中抽取一个主题z,然后再从主题z所对应的多项分布φ中抽取一个单词w。将这个过程重复Nd次,就产生了文档d,这里的Nd是文档d的单词总数。
LDA方法是一种非监督机器学习技术,LDA可以用来识别大规模文档集(documentcollection)或语料库(corpus)中潜藏的主题信息,通过聚类发现问题。但是LDA方法本身不能区分哪些是新问题哪些是老问题,而且人对问题的理解和机器的理解存在差异,有些老问题可能被打散变成新问题,聚类出来的问题并不一定是想要的问题。
发明内容
本发明的目的是提供一种区分主题的方法及装置,以解决现在技术无法区分聚类得到的主题是新主题还是老主题,或者聚类得到的主题并不一定是想要的主题等技术问题。
为了实现上述目的,本发明技术方案如下:
一种区分主题的方法,用于识别待训练数据属于已知主题还是新主题,所述区分主题的方法包括:
从已知主题对应的数据中抽取数据进行标注,将标注的数据与待训练数据合并成训练数据集;
对训练数据集进行聚类,聚类得到训练数据所属的主题;
根据标注的数据来区分聚类得到的主题是已知主题还是新主题。
进一步地,所述对训练数据集进行聚类,所采用的聚类方法为LDA聚类方法。
进一步地,所述LDA聚类方法聚类的主题数目大于已知主题的数目。
进一步地,所述从已知主题对应的数据中抽取数据进行标注,将标注的数据与待训练数据合并成训练数据集,所标注的标注数据少于待训练数据。
进一步地,所述根据标注的数据来区分聚类得到的主题是已知主题还是新主题,包括:
如果一个已知主题的所有标注数据只出现在一个主题中,那么这个主题是已知主题;
如果一个主题中没有出现已知主题的标注数据,则该主题是新主题。
进一步地,所述对训练数据集进行聚类,聚类得到训练数据所属的主题,还包括:
聚类出对应到每个主题下每一个关键词的概率。
进一步地,所述根据标注的数据来区分聚类得到的主题是已知主题还是新主题,还包括:
根据每个聚类得到的主题对应的关键词,进一步判断聚类得到的主题是已知主题还是新主题。
本发明还提出了一种区分主题的装置,用于识别待训练数据属于已知主题还是新主题,所述区分主题的装置包括:
数据抽取模块,用于从已知主题对应的数据中抽取数据进行标注,将标注的数据与待训练数据合并成训练数据集;
聚类模块,用于对训练数据集进行聚类,聚类得到训练数据所属的主题;
主题区分模块,用于根据标注的数据来区分聚类得到的主题是已知主题还是新主题。
优选地,所述聚类模块对训练数据集进行聚类,所采用的聚类方法为LDA聚类方法。
进一步地,所述LDA聚类方法聚类的主题数目大于已知主题的数目。
进一步地,所述数据抽取模块从已知主题对应的数据中抽取数据进行标注,将标注的数据与待训练数据合并成训练数据集,所标注的标注数据少于待训练数据。
进一步地,所述主题区分模块根据标注的数据来区分聚类得到的主题是已知主题还是新主题,执行如下操作:
如果一个已知主题的所有标注数据只出现在一个主题中,那么这个主题是已知主题;
如果一个主题中没有出现已知主题的标注数据,则该主题是新主题。
进一步地,所述聚类模块对训练数据集进行聚类,聚类得到训练数据所属的主题,还包括:
聚类出对应到每个主题下每一个关键词的概率。
进一步地,所述主题区分模块根据标注的数据来区分聚类得到的主题是已知主题还是新主题,还执行如下步骤:
根据每个聚类得到的主题对应的关键词,进一步判断聚类得到的主题是已知主题还是新主题。
本发明提出的一种区分主题的方法及装置,使用半监督的方法,利用少量标注的数据区分LDA聚类出来的主题是否是客服已知的问题,并且减少人对问题的理解和机器对问题理解的差异,能够准确地区分客户所提出的问题。
附图说明
图1为本发明区分主题的方法流程图;
图2为本发明区分主题的装置结构示意图。
具体实施方式
下面结合附图和实施例对本发明技术方案做进一步详细说明,以下实施例不构成对本发明的限定。
本实施例以客户服务过程中经常遇到的客户咨询为例,一般客服人员需要根据与客户的对话,来判别客户所咨询的问题是什么。而进一步判断用户所咨询的问题属于新问题还是老问题,对产品的改进和发展也是非常重要的。在本实施例中,将客户与客服人员之间的对话作为训练数据,通过LDA聚类从大量的对话中获知客户所要咨询的问题,客户所要咨询的问题即通过LDA聚类得到的主题,并进一步判断客户所要咨询的问题是新问题还是老问题。
如图1所示,本实施例一种区分主题的方法,包括如下步骤:
步骤S1、从已知主题对应的数据中抽取数据进行标注,将标注的数据与待训练数据合并成训练数据集。
本实施例根据历史经验数据总结出一些老问题,将这些老问题作为已知主题。客服人员在平时的工作中会积累经验,根据接听到的与客户的对话数据,得到一些已知主题。从这些已知主题对应的对话数据中选取部分数据进行标注,对每个已知主题标注少量数据,一般为3-5条对话数,标注数据的量级比待训练数据要小很多,不会对训练数据的聚类结果造成影响。
例如:
A.我的资格够了,为什么开通不了。标注:开通不了。
B.我已经实名认证了,怎么还开通不了啊。标注:开通不了。
C.我朋友都开通了,为什么开通不了。标注:开通不了。
D.为什么开通不了啊。标注:开通不了。
将标注的数据A、B、C、D与待训练数据合并成新的训练数据集,用于进行后续的聚类。
步骤S2、对训练数据集进行聚类,聚类得到训练数据所属的主题。
本实施例进行聚类的方法采用LDA聚类方法,LDA聚类方法是一种非监督机器学习技术,LDA可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。
LDA聚类简单来说就是为一堆文档进行聚类(所以是非监督学习),一种主题(topic)就是一类,要聚成的主题(topic)数目是事先指定的,topic数目一般是根据经验指定一个值,在本实施例中可以用老问题数目的3倍作为topic数目。聚类的结果是一个概率。以下通过一个例子进行说明,假设有以下几组句子:
1、我喜欢吃西兰花和香蕉;
2、我吃了有香蕉和菠菜汁的早餐;
3、龙猫和小猫很可爱;
4、我妹妹昨天收养了一只小猫;
5、看看这个可爱的仓鼠嚼一块西兰花。
如果对这些句子进行LDA聚类,聚类的topic有两个,分别是TopicA和TopicB,那么经过LDA聚类后得到:
句子1和2:100%属于Topic A;
句子3和4:100%属于Topic B;
句子5:60%属于Topic A,40%属于Topic B;
Topic A:30%西兰花,15%香蕉,10%早餐,10%咀嚼,…(对于任何一个单词,可以得知TopicA都关系到一个食物的主题);
Topic B:20%龙猫,20%小猫,20%可爱,15%仓鼠,…(对于任何一个单词,可以得知TopicB都关系到一个可爱的动物的主题。
上面关于句子5的结果,可以看出来是一个明显的概率类型的聚类结果,在本实施例中会认为句子5属于topicA。句子1和2正好都是100%的确定性结果。
再看例子里的结果,除了为每句话得出了一个概率的聚类结果,而且对每个Topic,都有代表性的词以及一个比例。以Topic A为例,就是说所有对应到Topic A的词里面,有30%的词是西兰花。在LDA算法中,会把每一个文档中的每一个词对应到一个Topic。
本实施例通过LDA聚类方法可以从训练数据集中识别出训练数据所属的主题,以及对应的概率。例如:句子5:60%属于Topic A,40%属于Topic B。还可以进一步聚类出对应到每个主题下每一个关键词的概率,从而可以通过这些关键词来判断主题是已知问题还是新问题。
需要说明的是,本发明不限于所采用的聚类方法,例如可以采用LDA聚类方法,也可以采用Kmeans聚类方法,优选地采用LDA聚类方法,LDA聚类方法能够确定训练数据对应的主题,以及主题中各个关键词的概率,有利于进一步对主题进行分析判断。
步骤S3、根据标注的数据来区分聚类得到的主题是已知主题还是新的主题。
在通过LDA聚类方法识别出训练数据所属的主题后,可以根据标注的数据来区分聚类得到的主题是已知主题还是新主题。
具体判断方法包括:
1)、如果一个已知主题的所有标注数据只出现在一个主题中,那么这个主题就是个已知主题;
2)、如果一个主题中没有出现已知主题的标注数据,则该主题就是新主题;
3)、如果一个已知主题的标注数据出现在不同的主题里,则出现有标注数据的主题有可能是同一个已知主题的细化,需要进一步进行判断是已知主题还是新主题。具体的判断可以根据每个主题中出现的关键词来人工判断,即根据关键词所属的主题来进行判断,这里不再赘述。
例如:
如果标注的句子A、B、C、D都属于topic1,那么就认为topic1是已知主题老问题开通不了。
如果A、B属于topic1,C、D属于topic2,那么就认为topic1,topic2都可能是已知主题老问题开通不了,再通过关键词进一步确定。
如果topic3中都没有出现A、B、C、D,则topic3是新主题。
需要说明的是,在根据标注的数据来区分聚类得到的主题是已知主题还是新主题,也可以根据标注数据在主题中出现的多少来进行判断,出现的多则认为是老问题,出现的多少可以根据实际情况来设定,并不一定要求所有标注的数据都出现在主题中才认定为是已知主题。
如图2所示,本实施例还提出了一种区分主题的装置,用于识别待训练数据属于已知主题还是新主题,该区分主题的装置包括:
数据抽取模块,用于从已知主题对应的数据中抽取数据进行标注,将标注的数据与待训练数据合并成训练数据集;
聚类模块,用于对训练数据集进行聚类,聚类得到训练数据所属的主题;
主题区分模块,用于根据标注的数据来区分聚类得到的主题是已知主题还是新主题。
优选地,聚类模块对训练数据集进行聚类,所采用的聚类方法为LDA聚类方法。
本实施例LDA聚类方法聚类的主题数目大于已知主题的数目。
本实施例数据抽取模块从已知主题对应的数据中抽取数据进行标注,将标注的数据与待训练数据合并成训练数据集,所标注的标注数据少于待训练数据。
本实施例主题区分模块根据标注的数据来区分聚类得到的主题是已知主题还是新主题,执行如下操作:
如果一个已知主题的所有标注数据只出现在一个主题中,那么这个主题是已知主题;
如果一个主题中没有出现已知主题的标注数据,则该主题是新主题。
本实施例聚类模块对训练数据集进行聚类,聚类得到训练数据所属的主题,还包括:
聚类出对应到每个主题下每一个关键词的概率。
显然,本实施例主题区分模块根据标注的数据来区分聚类得到的主题是已知主题还是新主题,还执行如下步骤:
根据每个聚类得到的主题对应的关键词,进一步判断聚类得到的主题是已知主题还是新主题。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (8)

1.一种区分主题的方法,用于识别待训练数据属于已知主题还是新主题,其特征在于,所述区分主题的方法包括:
从已知主题对应的数据中抽取数据进行标注,将标注的数据与待训练数据合并成训练数据集;
对训练数据集进行聚类,聚类得到训练数据所属的主题;
根据标注的数据来区分聚类得到的主题是已知主题还是新主题;
其中,所述根据标注的数据来区分聚类得到的主题是已知主题还是新主题,包括:
如果一个已知主题的所有标注数据只出现在一个主题中,那么这个主题是已知主题;
如果一个主题中没有出现已知主题的标注数据,则该主题是新主题;
其中,所述对训练数据集进行聚类,所采用的聚类方法为LDA聚类方法,所述LDA聚类方法聚类的主题数目大于已知主题的数目。
2.根据权利要求1所述的区分主题的方法,其特征在于,所述从已知主题对应的数据中抽取数据进行标注,将标注的数据与待训练数据合并成训练数据集,包括:
所标注的标注数据少于待训练数据。
3.根据权利要求1所述的区分主题的方法,其特征在于,所述对训练数据集进行聚类,聚类得到训练数据所属的主题,还包括:
聚类出对应到每个主题下每一个关键词的概率。
4.根据权利要求3所述的区分主题的方法,其特征在于,所述根据标注的数据来区分聚类得到的主题是已知主题还是新主题,还包括:
根据每个聚类得到的主题对应的关键词,进一步判断聚类得到的主题是已知主题还是新主题。
5.一种区分主题的装置,用于识别待训练数据属于已知主题还是新主题,其特征在于,所述区分主题的装置包括:
数据抽取模块,用于从已知主题对应的数据中抽取数据进行标注,将标注的数据与待训练数据合并成训练数据集;
聚类模块,用于对训练数据集进行聚类,聚类得到训练数据所属的主题;
主题区分模块,用于根据标注的数据来区分聚类得到的主题是已知主题还是新主题;
其中,所述主题区分模块根据标注的数据来区分聚类得到的主题是已知主题还是新主题,执行如下操作:
如果一个已知主题的所有标注数据只出现在一个主题中,那么这个主题是已知主题;
如果一个主题中没有出现已知主题的标注数据,则该主题是新主题;
其中,所述对训练数据集进行聚类,所采用的聚类方法为LDA聚类方法,所述LDA聚类方法聚类的主题数目大于已知主题的数目。
6.根据权利要求5所述的区分主题的装置,其特征在于,所述数据抽取模块从已知主题对应的数据中抽取数据进行标注,将标注的数据与待训练数据合并成训练数据集,其中所标注的标注数据少于待训练数据。
7.根据权利要求5所述的区分主题的装置,其特征在于,所述聚类模块对训练数据集进行聚类,聚类得到训练数据所属的主题,还包括:
聚类出对应到每个主题下每一个关键词的概率。
8.根据权利要求7所述的区分主题的装置,其特征在于,所述主题区分模块根据标注的数据来区分聚类得到的主题是已知主题还是新主题,还执行如下步骤:
根据每个聚类得到的主题对应的关键词,进一步判断聚类得到的主题是已知主题还是新主题。
CN201610107373.8A 2016-02-26 2016-02-26 一种区分主题的方法及装置 Active CN107133226B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201610107373.8A CN107133226B (zh) 2016-02-26 2016-02-26 一种区分主题的方法及装置
TW106104132A TW201734759A (zh) 2016-02-26 2017-02-08 一種區分主題的方法及裝置
JP2018543228A JP2019510301A (ja) 2016-02-26 2017-02-14 トピックを区別するための方法及び機器
PCT/CN2017/073445 WO2017143920A1 (zh) 2016-02-26 2017-02-14 一种区分主题的方法及装置
US16/112,623 US20180366106A1 (en) 2016-02-26 2018-08-24 Methods and apparatuses for distinguishing topics

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610107373.8A CN107133226B (zh) 2016-02-26 2016-02-26 一种区分主题的方法及装置

Publications (2)

Publication Number Publication Date
CN107133226A CN107133226A (zh) 2017-09-05
CN107133226B true CN107133226B (zh) 2021-12-07

Family

ID=59684972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610107373.8A Active CN107133226B (zh) 2016-02-26 2016-02-26 一种区分主题的方法及装置

Country Status (5)

Country Link
US (1) US20180366106A1 (zh)
JP (1) JP2019510301A (zh)
CN (1) CN107133226B (zh)
TW (1) TW201734759A (zh)
WO (1) WO2017143920A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10861022B2 (en) * 2019-03-25 2020-12-08 Fmr Llc Computer systems and methods to discover questions and answers from conversations
FR3094508A1 (fr) * 2019-03-29 2020-10-02 Orange Système et procédé d’enrichissement de données
TWI807400B (zh) * 2021-08-27 2023-07-01 台達電子工業股份有限公司 產生實體關係抽取模型的裝置及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916376A (zh) * 2010-07-06 2010-12-15 浙江大学 基于局部样条嵌入的正交半监督子空间图像分类方法
CN104463633A (zh) * 2014-12-19 2015-03-25 成都品果科技有限公司 一种基于地理位置和兴趣点信息的用户细分方法
US20160042276A1 (en) * 2013-12-02 2016-02-11 Qbase, LLC Method of automated discovery of new topics

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090037412A1 (en) * 2007-07-02 2009-02-05 Kristina Butvydas Bard Qualitative search engine based on factors of consumer trust specification
US20100153318A1 (en) * 2008-11-19 2010-06-17 Massachusetts Institute Of Technology Methods and systems for automatically summarizing semantic properties from documents with freeform textual annotations
US8176067B1 (en) * 2010-02-24 2012-05-08 A9.Com, Inc. Fixed phrase detection for search
JP5691289B2 (ja) * 2010-08-11 2015-04-01 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
JP2012038239A (ja) * 2010-08-11 2012-02-23 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
EP2546760A1 (en) * 2011-07-11 2013-01-16 Accenture Global Services Limited Provision of user input in systems for jointly discovering topics and sentiment
US8914371B2 (en) * 2011-12-13 2014-12-16 International Business Machines Corporation Event mining in social networks
CN103177024A (zh) * 2011-12-23 2013-06-26 微梦创科网络科技(中国)有限公司 一种话题信息展现方法和装置
JP2015004996A (ja) * 2012-02-14 2015-01-08 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 複数の文書をクラスタリングする装置
CN102902700B (zh) * 2012-04-05 2015-02-25 中国人民解放军国防科学技术大学 基于在线增量演化主题模型的软件自动分类方法
US10204026B2 (en) * 2013-03-15 2019-02-12 Uda, Llc Realtime data stream cluster summarization and labeling system
US10599697B2 (en) * 2013-03-15 2020-03-24 Uda, Llc Automatic topic discovery in streams of unstructured data
US9317809B1 (en) * 2013-09-25 2016-04-19 Emc Corporation Highly scalable memory-efficient parallel LDA in a shared-nothing MPP database
CN103559175B (zh) * 2013-10-12 2016-08-10 华南理工大学 一种基于聚类的垃圾邮件过滤系统及方法
US20160110428A1 (en) * 2014-10-20 2016-04-21 Multi Scale Solutions Inc. Method and system for finding labeled information and connecting concepts
US9722957B2 (en) * 2015-05-04 2017-08-01 Conduent Business Services, Llc Method and system for assisting contact center agents in composing electronic mail replies
US10482119B2 (en) * 2015-09-14 2019-11-19 Conduent Business Services, Llc System and method for classification of microblog posts based on identification of topics
US10409823B2 (en) * 2015-12-29 2019-09-10 Facebook, Inc. Identifying content for users on online social networks
US10789546B2 (en) * 2016-06-23 2020-09-29 International Business Machines Corporation Cognitive machine learning classifier generation
US10635703B2 (en) * 2017-10-19 2020-04-28 International Business Machines Corporation Data clustering
US10970595B2 (en) * 2018-06-20 2021-04-06 Netapp, Inc. Methods and systems for document classification using machine learning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916376A (zh) * 2010-07-06 2010-12-15 浙江大学 基于局部样条嵌入的正交半监督子空间图像分类方法
US20160042276A1 (en) * 2013-12-02 2016-02-11 Qbase, LLC Method of automated discovery of new topics
CN104463633A (zh) * 2014-12-19 2015-03-25 成都品果科技有限公司 一种基于地理位置和兴趣点信息的用户细分方法

Also Published As

Publication number Publication date
TW201734759A (zh) 2017-10-01
JP2019510301A (ja) 2019-04-11
CN107133226A (zh) 2017-09-05
US20180366106A1 (en) 2018-12-20
WO2017143920A1 (zh) 2017-08-31

Similar Documents

Publication Publication Date Title
CN104217226B (zh) 基于深度神经网络与条件随机场的对话行为识别方法
Atoum et al. Sentiment analysis of Arabic Jordanian dialect tweets
US20150310352A1 (en) Systems and method for performing contextual classification using supervised and unsupervised training
EP4018353A1 (en) Systems and methods for extracting information from a dialogue
CN110609983B (zh) 一种政策文件结构化分解方法
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
CN109492105B (zh) 一种基于多特征集成学习的文本情感分类方法
CN111462752B (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN111145903A (zh) 获取眩晕症问诊文本的方法、装置、电子设备及问诊系统
Bhattasali et al. Automatic identification of rhetorical questions
CN114528919A (zh) 自然语言处理方法、装置及计算机设备
CN104850617A (zh) 短文本处理方法及装置
CN107133226B (zh) 一种区分主题的方法及装置
CN111143571A (zh) 实体标注模型的训练方法、实体标注方法以及装置
Srivastava et al. Challenges with sentiment analysis of on-line micro-texts
Safrin et al. Sentiment analysis on online product review
Mohandas et al. Domain specific sentence level mood extraction from malayalam text
CN111180025A (zh) 表示病历文本向量的方法、装置及问诊系统
CN113990352A (zh) 用户情绪识别与预测方法、装置、设备及存储介质
CN112115712A (zh) 基于话题的群体情感分析方法
Wang Using machine learning and natural language processing to analyze library chat reference transcripts
Júnior et al. A natural language understanding model COVID-19 based for chatbots
TW202034207A (zh) 使用意圖偵測集成學習之對話系統及其方法
EP4338089A1 (en) System and method of automatic topic detection in text
Hemmatirad et al. Detection of mental illness risk on social media through multi-level svms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant