CN109165284B - 一种基于大数据的金融领域人机对话意图识别方法 - Google Patents

一种基于大数据的金融领域人机对话意图识别方法 Download PDF

Info

Publication number
CN109165284B
CN109165284B CN201810961117.4A CN201810961117A CN109165284B CN 109165284 B CN109165284 B CN 109165284B CN 201810961117 A CN201810961117 A CN 201810961117A CN 109165284 B CN109165284 B CN 109165284B
Authority
CN
China
Prior art keywords
word
words
text
model
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810961117.4A
Other languages
English (en)
Other versions
CN109165284A (zh
Inventor
王进
孙万彤
孙开伟
欧阳卫华
邓欣
陈乔松
李智星
胡峰
雷大江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Liangniao Technology Co.,Ltd.
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201810961117.4A priority Critical patent/CN109165284B/zh
Publication of CN109165284A publication Critical patent/CN109165284A/zh
Application granted granted Critical
Publication of CN109165284B publication Critical patent/CN109165284B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的金融领域人机对话意图识别方法,包括:101对金融领域人机对话所产生的文本数据的预处理;102对于给定文本数据集进行划分;103根据人机对话的数据进行文本数据特征的构建,包括特征提取,文本向量化;104针对构建完成后的特征,进行降维,稀疏处理;105针对文本数据,建立机器学习模型,来对未知的人机对话进行意图识别。本发明提出利用机器学习来对文本数据进行预测,对已知标签的文本数据训练而得到模型,来预测未知标签的文本数据(该问题属于多分类问题),从而获取该对话所表达的意图(多分类概率最大的概率)。

Description

一种基于大数据的金融领域人机对话意图识别方法
技术领域
本发明属于机器学习,自然语言处理,大数据处理技术领域。
背景技术
随着搜索引擎技术的发展,现代搜索引擎、问答系统和对话机器人需要的不再是简单的相关性信息检索,而是能深刻理解用户的信息需求。正确识别用户的意图是实现这一目标的关键步骤。基于对话的意图识别是一个有挑战性的任务的原因是对话中的用户输入通常非常短,而且缺少足够的信息,需要系统准确理解上文含义后,再做出最终判断。本发明在传统的自然语言处理上,结合数据挖掘和自然语言处理,首先对文本数据去除噪声,剔除冗余信息,然后对文本特征进行过滤,降维等等,最后对于该预测文本,设计机器学习模型,并且进行了算法层面上的融合,以提高文本分类的准确率,本发明有效的解决了传统文本分类精度低,处理时间较长的问题。
发明内容
本发明旨在解决以上现有技术出现的问题。提出了一种基于大数据的金融领域人机对话意图识别方法,从而使得对话意图识别能有更高的准确率。
为了实现上述目的,本发明采用的技术方案是,一种基于大数据的金融领域人机对话意图识别方法,其包括以下步骤:
101、对金融领域app上人机对话所产生的历史文本数据进行预处理操作;
102、对于步骤101处理后的数据集进行划分,分为训练集和验证集;
103、根据人机对话历史文本数据进行文本数据特征的构建,包括特征提取和文本表示;
104、针对构建完成后的特征,进行降维、稀疏的处理;
105、根据人机对话历史文本数据进行模型的设计及其优化,建立机器学习模型,来对未知的人机对话进行意图识别。本发明提出利用机器学习来对文本数据进行预测,对已知标签的文本数据训练而得到模型,来预测未知标签的文本数据,从而获取该对话所表达的意图。
进一步的,所述步骤101的数据预处理,具体包括:(1)对文档进行切分,进行文本分词;所述文本分词包括词典的构造和分词算法的操作两个主要步骤;在本发明中,我们构造的是字典树,字典树的构造方法较多,在本发明中,我们用双数组Trie数进行构造,对于分词操作,采用的是最短路径方法进行分词操作。
(2)去停用词(包括标点,数字,单子和其他一些无意义的词,如助词、语气词等等),利用人工建立的停用词词典对停用词进行处理,即对特殊符号,标点,数字进行替换。
进一步的,所述步骤102对人机对话数据进行划分,具体包括:将文本数据集划分训练集和验证集,采用留出法将其划分为训练集和验证集,在用留出法对数据进行划分时,采用的是分层抽样的方法,这样可保证训练集和验证集正负样本分布的一致性,可以加快模型收敛速度;分层抽样描述如下,假设原始数据集为D,对D分层抽样分为训练集S和验证集T,如果使得S和T数据集中正负样本比例和D中保持一致,则该抽样为分层抽样。
进一步的,所述步骤103进行文本数据特征的构建,包括特征提取和文本表示,具体为:
(1)文本特征提取,文本中的某一个单词就能以某种程度来表征某句话,这个程度具体衡量的标准就是概率。概率越大,说明这个单词越能表征这句话;反之则越不能表征这句话,当概率小到一个阀值(<=0.25)的时候,这个单词就可以舍弃了(不能表征该文本)。对于以上提出的概率,本发明选择用信息增益(概率越大越好),信息增益进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的信息增益比较大。通常用互信息作为特征词和类别之问的测度,如果特征词属于该类的话,它们的信息增益最大;
(2)人机对话进行词频统计,TF-IDF(词频-逆文档频率)所涉及关键参数为整个对话语料库以及每个对话的词频-逆文档频权重,新词语料库;由于传统的新词语料库在模型训练的开始阶段,对于新词的处理效果不好,本发明就使用极大似然估计去估计新词的词频-逆文档频。
假设①新词的出现与不出现服从伯努利分布,②新词为非常用词(在语料库不常出现的词),③在语料库中随机抽样,其中不常用词出现的训练观测序列为{x1,x2,…,xn},xi∈{0,1},其中n表示词的数量,得到极大似然函数为
Figure BDA0001773839650000021
使得对数化的极大似然函数对不常用词出现的概率p的导数等于0,求得不常用词出现的概率(即不常用词的词频)
Figure BDA0001773839650000031
就可以选出最终可以表达该句话的词语。
(3)文本向量化,可以分为词语的向量表达,短文本的向量表达,长文本的向量表达,因为不同的情景需要用到不同的方法和处理方式,本发明采用词袋模型作为文本向量化的工具,假设对于一个对话,忽略它的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的,不依赖于其它单词是否出现,所涉及关键参数为对话语料库,以及对话语料库中每个单词出现的频率,其中最简单的模式是基于词的独热表示,它是用每一个词作为维度key,有单词对应的位置为1,其他为0,向量长度和词典大小相同。
(4)将文本向量化之后,每个词语可以得到一个它所代表的词向量,对于一组对话,将对话里边所有词语的词向量相加,词向量相加的时候可以根据词向量所对应单词的重要性给予词向量以不同的权重,本发明中,每个词语所对应的词向量的权重由每个词语的TF-IDF(词频-逆文档频率)的数值决定。
进一步的,步骤104所述特征降维、稀疏处理,具体包括:
(1)利用奇异值对构建后的特征进行降维,奇异值利用对称矩阵来对特征进行降维处理,首先将特征表征为一个大的矩阵M,然后将特征矩阵利用正交基进行映射,映射完成之后,所得到的特征即为降维后的特征。
对于m×n的矩阵M,进行奇异值分解
Figure BDA0001773839650000032
取其前r个非零奇异值,可以还原原来的矩阵M,即前r个非零奇异值对应的奇异向量代表了矩阵M的主要特征。可以表示为
Figure BDA0001773839650000033
其中,M为方阵,U为单位矩阵,VT为MTM的特征向量,U为MMT的特征向量。
(2)降维之后的特征进行矩阵的稀疏表达,这样,可使模型更易于收敛。降维后的特征,由于其维度可能过大,会带来维灾难,使得模型训练速度较长,所以我们采用三角矩阵的稀疏存储方式,这样,可以在保证特征重要性丢失不多的情况下,加快模型的训练过程。
进一步的,步骤105所述模型采用DeepFFM模型,用构建完成的训练集去训练DeepFFM,对于训练好的模型,用验证集进行测试。对于最终模型的融合,我们采用类堆模型,它可以结合上文信息(上一个对话)去辅助预测下文信息(下一个对话)。
本发明的优点及有益效果如下:
本发明充分考虑到了人机对话的历史数据,在对历史数据进行统计分析的基础上,进行特征的降维,加快了模型的训练过程,减少运行时间。且本发明进行了算法层面上的融合,有效的提高了模型的精度。
通过对给定数据集进行分析,可以发现该问题为多分类问题,由于多分类问题会带来特征的维灾难,所以本发明将多分类问题转化为二分类问题,既避免了特征的维灾难,又加快了模型的训练过程。
附图说明
图1是本发明提供优选实施例实施例一提供基于大数据的金融领域人机话意图识别方法的总体流程图;
图2是本发明实施例一提供基于大数据的金融领域人机话意图识别方法的特征提取过程词语向量化,计算TF-IDF(包含词频),文本特征标准化的流程图;
图3是本发明实施例一提供基于大数据的金融领域人机话意图识别方法的模型融合示例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
参见图1,一种基于大数据的金融领域人机对话意图识别方法,其包括以下步骤:
101、对金融领域app上人机对话所产生的历史文本数据进行预处理操作;
102、对历史文本数据进行划分,分为训练集和验证集;
103、根据人机对话历史文本数据进行文本数据特征的构建,包括特征提取和文本向量化;
104、针对构建完成后的特征,进行降维,稀疏处理;
105、根据人机对话历史文本数据构建模型及其优化,对未知的人机对话进行意图识别。本发明提出利用机器学习来对文本数据进行预测,对已知标签的文本数据训练而得到模型,来预测未知标签的文本数据,从而获取该对话所表达的意图。
所述的对人机对话所产生数据的预处理包括如下:
(1)对文档进行切分,进行文本分词,所用文本分词包括两个主要步骤,第一个是词典的构造,第二个是分词算法的操作。在本发明中,我们构造的是字典树,字典树的构造方法较多,在本发明中,我们用双数组Trie数进行构造,对于分词操作,采用的是最短路径方法进行分词操作。
(2)去停用词(包括标点,数字,单子和其他一些无意义的词,如助词、语气词等等),本发明中,利用人工规则对停用词进行处理,即利用人工建立的停用词词典对停用词进行处理,如对特殊符号,标点,数字进行替换。
所述对于给定文本数据集进行划分的步骤如下:
(1)将文本数据集划分训练集和验证集,采用留出法将其划分为训练集和验证集,在用留出法对数据进行划分时,采用的是分层抽样的方法,这样可保证训练集和验证集正负样本分布的一致性,可以加快模型收敛速度;分层抽样描述如下,假设原始数据集为D,对D分层抽样分为训练集S和验证集T,如果使得S和T数据集中正负样本比例和D中保持一致,则该抽样为分层抽样;
(2)在本发明中定义测试集就为需要预测其意图的数据集。
所述根据人机对话数据进行文本数据特征的构建(参见图2),包括特征提取,文本向量化包括如下:
(1)文本特征提取,文本中的某一个单词就能以某种程度来表征某句话,这个程度具体衡量的标准就是概率。概率越大,说明这个单词越能表征这句话;反之则越不能表征这句话,当概率小到一个阀值(<=0.25)的时候,这个单词就可以舍弃了(不能表征该文本)。对于以上提出的概率,本发明选择用信息增益(概率越大越好),信息增益进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的信息增益比较大。通常用信息增益作为特征词和类别之问的测度,如果特征词属于该类的话,它们的信息增益最大;
(2)人机对话进行词频统计,TF-IDF(词频-逆文档频率)所涉及关键参数为整个对话语料库以及每个对话的词频-逆文档频权重,新词语料库;由于传统的新词语料库在模型训练的开始阶段,对于新词的处理效果不好,本发明就使用极大似然估计去估计新词的词频-逆文档频。
假设①新词的出现与不出现服从伯努利分布,②新词为非常用词(在语料库不常出现的词),③在语料库中随机抽样,其中不常用词出现的训练观测序列为{x1,x2,…,xn},xi∈{0,1},其中n表示词的数量,得到极大似然函数为
Figure BDA0001773839650000061
使得对数化的极大似然函数对不常用词出现的概率p的导数等于0,求得不常用词出现的概率(即不常用词的词频)
Figure BDA0001773839650000062
就可以选出最终可以表达该句话的词语。
(3)文本向量化,文本向量化,可以分为词语的向量表达,短文本的向量表达,长文本的向量表达,因为不同的情景需要用到不同的方法和处理方式,本发明采用词袋模型作为文本向量化的工具,假设对于一个对话,忽略它的单词顺序和语法、句法等要素,将其仅仅看作是若干个词汇的集合,文档中每个单词的出现都是独立的,不依赖于其它单词是否出现,所涉及关键参数为对话语料库,以及对话语料库中每个单词出现的频率,其中最简单的模式是基于词的独热表示,它是用每一个词作为维度key,有单词对应的位置为1,其他为0,向量长度和词典大小相同。
(4)将文本向量化之后,每个词语可以得到一个它所代表的词向量,对于一组对话,将对话里边所有词语的词向量相加,词向量相加的时候可以根据词向量所对应单词的重要性给予词向量以不同的权重,本发明中,每个词语所对应的词向量的权重由每个词语的TF-IDF(词频-逆文档频率)的数值决定。
所述针对构建完成后的特征,进行降维,稀疏的处理包括如下:
(1)利用奇异值对构建后的特征进行降维,奇异值利用对称矩阵来对特征进行降维处理,首先将特征表征为一个大的矩阵M,然后将特征矩阵利用正交基进行映射,映射完成之后,所得到的特征即为降维后的特征。
对于m×n的矩阵M,进行奇异值分解
Figure BDA0001773839650000063
取其前r个非零奇异值,可以还原原来的矩阵M,即前r个非零奇异值对应的奇异向量代表了矩阵M的主要特征。可以表示为
Figure BDA0001773839650000064
其中,M为方阵,U为单位矩阵,VT为MTM的特征向量,U为MMT的特征向量。
(2)降维之后的特征进行矩阵的稀疏表达,这样,可使模型更易于收敛。降维后的特征,由于其维度可能过大,会带来维灾难,使得模型训练速度较长,所以我们采用三角矩阵的稀疏存储方式,这样,可以在保证特征重要性丢失不多的情况下,加快模型的训练过程。
所述模型设计及其优化,针对文本数据,建立机器学习模型,来对未知的人机对话进行意图识别。本发明提出利用机器学习来对文本数据进行预测,对已知标签的文本数据训练而得到模型,来预测未知标签的文本数据,从而获取该对话所表达的意图,我们设计了DeepFFM模型,用构建完成的训练集去训练DeepFFM,对于训练好的模型,用验证集进行测试。对于最终模型的融合,我们采用类堆模型,它可以结合上文信息(上一个对话)去辅助预测下文信息(下一个对话)。如图3所示,图中,Qi表示该对话的第i个问题的相关特征(tf-idf,词向量),Pi表示该对话第i个问题得到的多分类概率(用Qi做特征预测出的多分类概率)。

Claims (7)

1.一种基于大数据的金融领域人机对话意图识别方法,其特征在于,包括以下步骤:
101、对金融领域app上人机对话所产生的历史文本数据进行预处理操作;
102、对于步骤101处理后的数据集进行划分,分为训练集和验证集;
103、根据人机对话历史文本数据进行文本数据特征的构建,包括特征提取和文本表示;
所述特征提取,文本中的某一个单词就能以某种程度来表征某句话,这个程度具体衡量的标准就是概率;概率越大,说明这个单词越能表征这句话;反之则越不能表征这句话,当概率小到一个阀值的时候,这个单词就可以舍弃了;
所述文本表示,将文本向量化,分为词语的向量表达,短文本的向量表达,长文本的向量表达,采用词袋模型作为文本向量化的工具,对于一个对话,忽略它的单词顺序和语法、句法,将其仅仅看作是若干个词汇的集合,文本中每个单词的出现都是独立的,不依赖于其它单词是否出现,词袋模型所涉及关键参数为对话语料库,以及对话语料库中每个单词出现的频率,每一个词作为维度key,有单词对应的位置为1,其他为0,向量长度和词典大小相同;其中,对话语料库中的新词的词频-逆文档频通过以下方法估计:
令新词的出现与不出现服从伯努利分布;新词为非常用词,即在语料库不常出现的词;在语料库中随机抽样,其中不常用词出现的训练观测序列为{x1,x2,…xi…,xn},xi∈{0,1},其中n表示词的数量,得到极大似然函数为
Figure FDA0002440638850000011
使得对数化的极大似然函数对不常用词出现的概率p的导数等于0,求得不常用词出现的概率
Figure FDA0002440638850000012
便选出最终可以表达该句话的词语;
104、针对构建完成后的特征,进行降维、稀疏的处理;
105、根据人机对话历史文本数据进行模型的设计及其优化,建立机器学习模型,来对未知的人机对话进行意图识别。
2.根据权利要求1所述一种基于大数据的金融领域人机对话意图识别方法,其特征在于:步骤101所述预处理操作包括:(1)对文档进行切分,进行文本分词;所述文本分词包括词典的构造和分词算法的操作两个主要步骤;
(2)去停用词,利用人工规则对停用词进行处理,即利用人工建立的停用词词典对特殊符号,标点,数字进行替换。
3.根据权利要求2所述一种基于大数据的金融领域人机对话意图识别方法,其特征在于:所述词典的构造,利用双数组Trie数来构造字典树;采用最短路径方法进行分词操作。
4.根据权利要求1所述一种基于大数据的金融领域人机对话意图识别方法,其特征在于:步骤102所述划分训练集和验证集,采用留出法划分为训练集和验证集,在用留出法对数据进行划分时,采用的是分层抽样的方法。
5.根据权利要求4所述一种基于大数据的金融领域人机对话意图识别方法,其特征在于:所述分层抽样为,原始数据集为D,对D分层抽样分为训练集S和验证集T,使得S和T数据集中正负样本比例和D中保持一致。
6.根据权利要求1所述一种基于大数据的金融领域人机对话意图识别方法,其特征在于:步骤104所述特征降维、稀疏处理,具体包括:
(1)利用奇异值对构建后的特征进行降维,奇异值利用对称矩阵来对特征进行降维处理,首先将特征表征为一个大的矩阵M,然后将特征矩阵利用正交基进行映射,映射完成之后,所得到的特征即为降维后的特征;
(2)降维之后的特征进行矩阵稀疏表达,采用三角矩阵的稀疏存储方式,可以在保证特征信息丢失较少的情况下,加快模型的训练过程。
7.根据权利要求1所述一种基于大数据的金融领域人机对话意图识别方法,其特征在于:步骤105所述模型采用DeepFFM模型,用构建完成的训练集去训练DeepFFM模型,对于训练好的模型,用验证集进行测试。
CN201810961117.4A 2018-08-22 2018-08-22 一种基于大数据的金融领域人机对话意图识别方法 Active CN109165284B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810961117.4A CN109165284B (zh) 2018-08-22 2018-08-22 一种基于大数据的金融领域人机对话意图识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810961117.4A CN109165284B (zh) 2018-08-22 2018-08-22 一种基于大数据的金融领域人机对话意图识别方法

Publications (2)

Publication Number Publication Date
CN109165284A CN109165284A (zh) 2019-01-08
CN109165284B true CN109165284B (zh) 2020-06-16

Family

ID=64896562

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810961117.4A Active CN109165284B (zh) 2018-08-22 2018-08-22 一种基于大数据的金融领域人机对话意图识别方法

Country Status (1)

Country Link
CN (1) CN109165284B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829713B (zh) * 2019-01-28 2020-09-15 重庆邮电大学 一种基于知识与数据共同驱动的移动支付方式识别方法
CN109993649A (zh) * 2019-03-13 2019-07-09 王亚萍 一种先导式纳税咨询服务推送方法
CN110096591A (zh) * 2019-04-04 2019-08-06 平安科技(深圳)有限公司 基于词袋模型的长文本分类方法、装置、计算机设备及存储介质
CN110046254B (zh) * 2019-04-18 2022-03-08 阿波罗智联(北京)科技有限公司 用于生成模型的方法和装置
CN110188195B (zh) * 2019-04-29 2021-12-17 南京星云数字技术有限公司 一种基于深度学习的文本意图识别方法、装置及设备
CN110109994B (zh) * 2019-05-10 2021-07-30 厦门铅笔头信息科技有限公司 包含结构化和非结构化数据的汽车金融风控系统
CN110113422A (zh) * 2019-05-10 2019-08-09 南京硅基智能科技有限公司 一种基于云端的虚拟手机的意图识别方法及系统
CN110704615B (zh) * 2019-09-04 2021-01-26 北京航空航天大学 互联网金融非显性广告识别方法及装置
CN111506554B (zh) * 2019-11-08 2021-02-19 马上消费金融股份有限公司 数据标注方法以及相关装置
CN111382366B (zh) * 2020-03-03 2022-11-25 重庆邮电大学 基于语言和非语言特征的社交网络用户识别方法及装置
CN111813914B (zh) * 2020-07-13 2021-07-06 龙马智芯(珠海横琴)科技有限公司 基于字典树的问答方法、装置、识别设备及可读存储介质
CN112100368B (zh) * 2020-07-21 2024-01-26 深思考人工智能科技(上海)有限公司 对话交互意图的识别方法和装置
CN112000793B (zh) * 2020-08-28 2022-08-09 哈尔滨工业大学 一种面向人机交互的对话目标规划方法
CN112445913B (zh) * 2020-11-25 2022-09-27 重庆邮电大学 一种基于大数据的金融信息负面主体判定分类方法
CN113516398A (zh) * 2021-07-22 2021-10-19 北京淇瑀信息科技有限公司 基于分层抽样的风险设备识别方法、装置及电子设备
CN113627178A (zh) * 2021-08-27 2021-11-09 四川长虹电器股份有限公司 基于字典树分类的可配置化领域识别方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217226A (zh) * 2014-09-09 2014-12-17 天津大学 基于深度神经网络与条件随机场的对话行为识别方法
CN105656826A (zh) * 2016-03-18 2016-06-08 清华大学 基于顺序统计量和机器学习的调制识别方法及系统
CN105741832A (zh) * 2016-01-27 2016-07-06 广东外语外贸大学 一种基于深度学习的口语评测方法和系统
WO2018035248A1 (en) * 2016-08-16 2018-02-22 Ebay Inc. Enhancing user queries using implicit indicators
CN107729312A (zh) * 2017-09-05 2018-02-23 苏州大学 基于序列标注建模的多粒度分词方法及系统
CN107944008A (zh) * 2017-12-08 2018-04-20 神思电子技术股份有限公司 一种针对自然语言进行情绪识别的方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701084A (zh) * 2015-12-28 2016-06-22 广东顺德中山大学卡内基梅隆大学国际联合研究院 一种基于互信息的文本分类的特征提取方法
CN105761720B (zh) * 2016-04-19 2020-01-07 北京地平线机器人技术研发有限公司 一种基于语音属性分类的交互系统及其方法
US10180935B2 (en) * 2016-12-30 2019-01-15 Facebook, Inc. Identifying multiple languages in a content item
CN108319599B (zh) * 2017-01-17 2021-02-26 华为技术有限公司 一种人机对话的方法和装置
CN108415923B (zh) * 2017-10-18 2020-12-11 北京邮电大学 封闭域的智能人机对话系统
CN107943860B (zh) * 2017-11-08 2020-10-27 北京奇艺世纪科技有限公司 模型的训练方法、文本意图的识别方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104217226A (zh) * 2014-09-09 2014-12-17 天津大学 基于深度神经网络与条件随机场的对话行为识别方法
CN105741832A (zh) * 2016-01-27 2016-07-06 广东外语外贸大学 一种基于深度学习的口语评测方法和系统
CN105656826A (zh) * 2016-03-18 2016-06-08 清华大学 基于顺序统计量和机器学习的调制识别方法及系统
WO2018035248A1 (en) * 2016-08-16 2018-02-22 Ebay Inc. Enhancing user queries using implicit indicators
CN107729312A (zh) * 2017-09-05 2018-02-23 苏州大学 基于序列标注建模的多粒度分词方法及系统
CN107944008A (zh) * 2017-12-08 2018-04-20 神思电子技术股份有限公司 一种针对自然语言进行情绪识别的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
How Robot Verbal Feedback Can Improve Team;Aaron St. Clair;《2015 10th ACM/IEEE International Conference on Human-Robot Interaction (HRI)》;20151231;全文 *

Also Published As

Publication number Publication date
CN109165284A (zh) 2019-01-08

Similar Documents

Publication Publication Date Title
CN109165284B (zh) 一种基于大数据的金融领域人机对话意图识别方法
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN109241255B (zh) 一种基于深度学习的意图识别方法
CN109165294B (zh) 一种基于贝叶斯分类的短文本分类方法
CN109800310B (zh) 一种基于结构化表达的电力运维文本分析方法
CN110232439B (zh) 一种基于深度学习网络的意图识别方法
CN111445898B (zh) 语种识别方法、装置、电子设备和存储介质
CN111159404B (zh) 文本的分类方法及装置
CN110415071B (zh) 一种基于观点挖掘分析的汽车竞品对比方法
CN111191442B (zh) 相似问题生成方法、装置、设备及介质
CN108804595B (zh) 一种基于word2vec的短文本表示方法
CN112036168B (zh) 事件主体识别模型优化方法、装置、设备及可读存储介质
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN106681986A (zh) 一种多维度情感分析系统
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN104809229A (zh) 一种文本特征词提取方法及系统
CN111191029B (zh) 基于监督学习和文本分类的ac构建方法
CN116050419B (zh) 一种面向科学文献知识实体的无监督识别方法及系统
CN115878778A (zh) 面向业务领域的自然语言理解方法
CN116186259A (zh) 一种会话线索评分方法、装置、设备及存储介质
CN113139061B (zh) 一种基于词向量聚类的案件特征提取方法
CN103744830A (zh) 基于语义分析的excel文档中身份信息的识别方法
CN114722153A (zh) 一种意图分类的方法和装置
CN114266249A (zh) 一种基于birch聚类的海量文本聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230510

Address after: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee after: Yami Technology (Guangzhou) Co.,Ltd.

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240423

Address after: Room 2808 and 2809, No. 856 East Huangpu Avenue (A-2), Huangpu District, Guangzhou City, Guangdong Province, 510710 (Office only)

Patentee after: Guangzhou Liangniao Technology Co.,Ltd.

Country or region after: China

Address before: Room 801, 85 Kefeng Road, Huangpu District, Guangzhou City, Guangdong Province

Patentee before: Yami Technology (Guangzhou) Co.,Ltd.

Country or region before: China