CN103049548B - 电子渠道应用上的faq识别系统及方法 - Google Patents

电子渠道应用上的faq识别系统及方法 Download PDF

Info

Publication number
CN103049548B
CN103049548B CN201210579361.7A CN201210579361A CN103049548B CN 103049548 B CN103049548 B CN 103049548B CN 201210579361 A CN201210579361 A CN 201210579361A CN 103049548 B CN103049548 B CN 103049548B
Authority
CN
China
Prior art keywords
question
word
answer
storehouse
office side
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210579361.7A
Other languages
English (en)
Other versions
CN103049548A (zh
Inventor
徐伟
沈明花
周正友
张磊
江涛
聂小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Toycloud Technology Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201210579361.7A priority Critical patent/CN103049548B/zh
Publication of CN103049548A publication Critical patent/CN103049548A/zh
Application granted granted Critical
Publication of CN103049548B publication Critical patent/CN103049548B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种电子渠道应用上的FAQ识别系统及方法,包括FAQ分词模块、检索出多候选模块、同义词扩展模块、自学习模块;FAQ分词采用电子渠道上专有词典进行要素词分词;根据要素词计算,得到多候选;在计算过程中,采用特定的电子渠道同义词辅助准确计算;最后是离线通过自学习模块对日志进行标注。本发明形成专有字典。对增值业务划分要素词。分为:业务要素词、操作要素词、特殊要素词等。同时支持词性扩展;检索时,侧重于业务要素词检索;同义词也根据词性划分,多组同义词见不传递。使得提高识别率时,多候选中至少出现与用户输入存在相同词;自学习中,知识更新,通过资源升级工具,对比出差异后,提交给运营商知识库人员审核后,线上更新。

Description

电子渠道应用上的FAQ识别系统及方法
技术领域
本发明涉及FAQ识别的技术领域,具体涉及一种电子渠道应用上的FAQ识别系统及方法。
背景技术
电信运营商急需一种针对增值业务的问答对的系统,能够快速自动地解答用户纷繁的疑问。
电子渠道应用上的FAQ识别,主要通过基于要素词的FAQ识别,在电信运营商增值业务方面,分析用户的咨询意向,给用户解答增值业务细节疑问。例如:用户咨询:数据流量有哪些套餐。系统通过FAQ识别,从预设的问题中找到最适合的问题,找到相似的回复给用户。
并且能够在补充对应的QA对,让相关的知识,立即生效,达到自学习功能。
现有技术的方案为:电子渠道应用上的FAQ识别是针对运营商增值业务方面的疑问依次进行分词、业务要素词提取、索引构建、文本相似度计算判决等过程,查找最相近的Question,回复对应的Answer。后续进行自学习。具体的,如图1所示,首先形成索引;如图2所示,接着进行检索;如图3所示,最后进行自学习的流程图。
现有技术的缺点:
1.分词仅基于名词、动词,无法体现电子渠道增值业务的特征。
2.基于普通分词的FAQ检索,计算出来的得分,更多是基于字面含义的,误识别的现象比较明显。
3.基于普通分词的同义词,由于非侧重于增值业务的,存在多候选答案,与用户输入找不到相同点,用户感知度很差。
4.自学习基于统计进行,基于用户的词频,或者用户之间的反馈进行。由于电信运营商增值业务回复准确性,全权属于电信运营商,用户反馈的结果,不适用。
发明内容
针对现有技术的缺点,本发明目的在于:提供一种电子渠道应用上的FAQ识别系统及方法,该方法可以体现电子渠道增值业务的特征,误识别的现象比较少,用户感知度好。
本发明采用的技术方案为:一种电子渠道应用上的FAQ识别系统,包括如下模块:
FAQ分词模块,该模块采用了前向、后向分词两种方法,并将两种方法得到的分词结果做了合并,即去掉了相同的结果,同时保留两者不同的结果;
检索出多候选模块,该模块中每个句子的特征向量的维数由基于电信运营商增值业务中相关词的个数决定,每一维的值是该维对应的词在该句子中的贡献,该词在该句中不出现,则认为该维值为0,所以每句话的特征向量维度很高,但其中只有几维值不为0,所以我们只关心其中不为0的维,即句子中分词结果中的词即可;
同义词扩展模块,该模块中同义词扩展计算得分的方式为:将可进行扩展的词依次换为该词的同义词,计算其得分;
自学习模块,该模块主要用于离线日志标注,该模块首先对比,运营商今日与昨日更新的资源知识,根据此差别,工具主动修改线下运营商积累一些知识问题,并录入识别知识的储备资源库,若最小粒度的问答对中,问题一半以上发生变化,则线下标注的部分,提示运营商进行核定。
其中,所述的FAQ分词模块采用的具体算法为:采用了前向、后向分词两种方法,并将两种方法得到的分词结果做了合并,即去掉了相同的结果,同时保留两者不同的结果。
其中,所述的检索出多候选模块采用的具体算法为:
每个句子的特征向量的维数由字典中词的个数决定,每一维的值是该维对应的词在该句子中的贡献,该词在该句中不出现,则认为该维值为0,所以每句话的特征向量维度很高,但其中只有几维值不为0,所以我们只关心其中不为0的维,即句子中分词结果中的词即可;具体如下:
首先在索引文件时会针对建索引的句子进行计算它的要素词权重得分,
(1)、如表1所示第一条模板:
表1“数据流量功能暂停与恢复”分词结果为:
分词结果 词属性 该类词权重 得分
暂停 开通取消类 3 3
恢复 开通取消类 3 3
数据流量功能 业务类 7 7
共分出3个词,所以特征向量应为(0…0,3,0…7,0…0,3,0…0)即只有“暂停”“恢复”“数据流量功能”对应的维度不为0,所以计算该向量的模的平方为:
3*3+3*3+7*7=67
(2)“数据流量套餐变更”分词结果为表2所示第二条模板:
表2
分词结果 词属性 该类词权重 得分
恢复 开通取消类 3 3
数据流量功能 业务类 7 7
所以计算该向量的模的平方为:
3*3+7*7=58
如果用户输入的短信为“请把我的数据流量暂停了,谢谢”,
提要素结果为表3所示:
表3
分词结果 词属性 该类词权重 得分
暂停 开通取消类 3 3
数据流量功能 业务类 7 7
所以计算该向量的模的平方为:
3*3+7*7=58
计算a,b两向量夹角余弦值公式cosα=a.b/|a|*|b|;
输入短信特征向量与第一条模板特征向量点积结果为0*0+…0*0+3*3+7*7=58;
输入短信特征向量与第二条模板特征向量点积结果为0*0+…0*0+7*7=49;
所以与第一条模板得分为 58 / ( 58 * 67 ) = 0.93 ;
与第二条模板得分为 49 / ( 58 * 58 ) = 0.84 .
其中,所述的同义词扩展模块采用的具体算法为:
同义词扩展计算得分的方法为:将可进行扩展的词依次换为该词的同义词,计算其得分;如果用户输入为“想把我的gprs暂停了”;
提要素结果为表4所示:
表4
分词结果 词属性 该类词权重 得分
暂停 开通取消类 3 3
gprs 业务类 7 7
计算该向量的模的平方为:
3*3+7*7=58
则认为gprs与“移动数据流量功能”为同义词;
则在计算得分时,先按“暂停,gprs”计算一遍得分,这时,第一条模板的得分为 Score _ A 1 = 3 * 3 / ( 58 * 67 ) = 0.144 , 第二条模板得分Score_B1为 0 / ( 58 * 58 ) = 0 ;
同于现行系统在同义词扩展中将词的权重做了降低,具体作为是乘0.8,所以再将gprs替换成其同义词“移动数据流量功能”,按“暂停、移动数据流量功能”计算得分是计算第一条模板的得分为 Score _ A 2 = ( 3 * 3 + 0.8 * 7 * 0.8 * 7 ) / ( 58 * 67 ) = 0.647 , 第二条模板得分
然后找到最大值为Score_A2,即模板1的最终得分是0.647;同理模板2的最终得分是0.54。
其中,所述的自学习模块采用的具体算法为:根据昨日局方提供的问答库、今日局方提供的问答库将线下积累的问答库进行升级,从而实现动态更新问答库,主要逻辑如下:
首先对比出局方问答对变化情况,若局方在某个主题名称(style)下新增了问题(Question),首先判断是否与问答对知识库(QA)是否相同,若相同则不做更改;若新增的问题(Question)与我们之前的标注不一致,则调整我们该主题名称(style)的所有问答对,若局方没有新增问题(Question),而是删除了部分问题(Question),首先判断该主题名称(style)是否全部删除,则之前标注的部分该主题名称(style)及其问答对全部删除;若该主题名称(style)仍然保留,但是其下的问题库一半以上发生变动,则将我们标注的部分提交局方确认;若只是小部分变动,则整体以局方为主,其中:局方指的是运营商;QA库为问答对知识库;Style为问答对中的主题名称。
本发明另外提供一种电子渠道应用上的FAQ识别方法,包括如下步骤:
(1)FAQ分词步骤后,将用户输入的短信分词保存起来;
(2)进入检索多候选步骤,将集内所有Question分词,逐一与用户输入短信比对,计算得分,在海量集合中,计算出得分最高的若干项,通常我们保留前10项结果;
(3)在(2)的计算过程中,会基于运营商增值业务的同义词进行同义词得分转换,据此,保证多样化的问题,在检索的过程中同样被检索出来;
(4)经过(2)、(3)后,得出前10个候选,将得分最高的候选项回复内容,推送给用户;将其与候选展现给用户查看;
(5)前4项都是线上实现的,知识库越大,计算越准确,同时,这些问题对应的答案根据的实际情况,会有所变化,整个问答对的变化是很快的,所以,需要及时应对各种变化,则需要自学习功能;
(6)自学习是对比局方的问答对变化,及时调整我们线下标注的问答对,达到快速的更新整个线上问答对知识库效果;
(7)如此线上及时检索,线下及时更新,保证整个识别率更高,覆盖度更广。
本发明与现有技术相比的优点在于:
1.本发明形成专有字典。对增值业务划分要素词。分为:业务要素词、操作要素词、特殊要素词等。同时支持词性扩展。
2.检索时,侧重于业务要素词检索。
3.同义词也根据词性划分,多组同义词见不传递。使得提高识别率时,多候选中至少出现与用户输入存在相同词
4.自学习中,知识更新,通过我们的资源升级工具,对比出差异后,提交给运营商知识库人员审核后,线上更新。
附图说明
图1为现有技术中形成索引过程流程图示意图;
图2为现有技术中检索过程流程图示意图;
图3为现有技术中自学习流程图示意图;
图4为本发明系统整体构架示意图;
图5为本发明资源升级流程图示意图;
图6为前向分析示意图。
具体实施方式
如图4所示。系统整体构架如下:
(1)QA库中所有问题,使用通用字典进行分词,其中通用字典是科大讯飞积累的24万词汇。
(2)从(1)中的分词结果中,提取QA库中与知识标题(Style)相关的要素词,形成专有字典。
(3)专有字典中,包含词性:业务要素词(例如:gprs是业务要素词,这是运营商常见的业务类型)、操作要素词(例如:查询、开通是操作要素词,能真实反映用户意图的词语)、其他要素词(例如:资费、使用方法是其他要素词,能真实反映用户咨询重点),要素词权重(这个可以动态调整,当前根据统计,建议比例为:7:3:1)等。这是分词模块处理过程。
(4)根据前三个步骤,讲问题、所属业务、所属知识标题、所有关联要素词,构建索引,形成索引文件。这是索引构建模块处理过程。
(5)在要素词扩展的过程中,有些词语之间是等同的。例如:gprs与数据流量,在业务层面当前是一致的,这些的词语在电子渠道的应用中较普遍。在线下标注的过程中,我们会维护一个同义词列表,在构建索引文件时,同时将同义词列表也加入到其中。这是同义词模块的处理过程。
(6)当用户输入短信后,在索引文件中进行查找,快速给出多候选。称为多候选模块。
1、FAQ分词模块
无论是构建索引还是识别时使用的为同一套分词系统,该系统分词结果一定为电子渠道词典中的词,词典中未出现的词会被丢弃。
该系统采用了前向、后向分词两种方法,并将两种方法得到的分词结果做了合并,即去掉了相同的结果,同时保留两者不同的结果。
例如,词典内包含机械、工业出版社、机械工业、出版社、算法导论、这本书6个词。
那么针对“我要找机械工业出版社的算法导论这本书”进行分词,由于我要找这个词在词典中没有出现,则不会产生结果;根据最大后向分词理论,可以知道后续分词结果为“这本书、算法导论、工业出版社、机械”;
前向结果为“机械工业、出版社、算法导论、这本书”;
“算法导论”与“这本书”在两种分词方式中均出现了,只保留一次,两种中不同的部分,均会被保留,所以最后结果为:
“这本书、算法导论、工业出版社、机械、机械工业、出版社”。
其中,前向分词逻辑如图6所示。
其中,后向分析的逻辑说明如下:
逆向匹配法思想与正向一样,只是从右向左切分,例如:
输入例句:S1=”计算语言学课程有意思”;
定义:最大词长MaxLen=5;S2=”“;分隔符=“/”;
假设存在词表:…,计算语言学,课程,意思,…;
最大逆向匹配分词算法过程如下:
1)S2=”";S1不为空,从S1右边取出候选子串W=”课程有意思”;
2)查词表,W不在词表中,将W最左边一个字去掉,得到W=”程有意思”;
3)查词表,W不在词表中,将W最左边一个字去掉,得到W=”有意思”;
4)查词表,W不在词表中,将W最左边一个字去掉,得到W=”意思”
5)查词表,“意思”在词表中,将W加入到S2中,S2=”意思/”,并将W从S1中去掉,此时S1=”计算语言学课程有”;
6)S1不为空,于是从S1左边取出候选子串W=”言学课程有”;
7)查词表,W不在词表中,将W最左边一个字去掉,得到W=”学课程有”;
8)查词表,W不在词表中,将W最左边一个字去掉,得到W=”课程有”;
9)查词表,W不在词表中,将W最左边一个字去掉,得到W=”程有”;
10)查词表,W不在词表中,将W最左边一个字去掉,得到W=”有”,这W是单字,将W加入到S2中,S2=“/有/意思”,并将W从S1中去掉,此时S1=”计算语言学课程”;
11)S1不为空,于是从S1左边取出候选子串W=”语言学课程”;
12)查词表,W不在词表中,将W最左边一个字去掉,得到W=”言学课程”;
13)查词表,W不在词表中,将W最左边一个字去掉,得到W=”学课程”;
14)查词表,W不在词表中,将W最左边一个字去掉,得到W=”课程”;
15)查词表,“意思”在词表中,将W加入到S2中,S2=“课程/有/意思/”,并将W从S1中去掉,此时S1=”计算语言学”;
16)S1不为空,于是从S1左边取出候选子串W=”计算语言学”;
17)查词表,“计算语言学”在词表中,将W加入到S2中,S2=“计算语言学/课程/有/意思/”,并将W从S1中去掉,此时S1=”";
18)S1为空,输出S2作为分词结果,分词过程结束。
2、检索出多候选模块
每个句子的特征向量的维数由字典中词的个数决定,每一维的值是该维对应的词在该句子中的贡献,该词在该句中不出现,则认为该维值为0,所以每句话的特征向量维度很高,但其中只有几维值不为0,所以我们只关心其中不为0的维,即句子中分词结果中的词即可。
首先在索引文件时会针对建索引的句子进行计算它的要素词权重得分。例如:
(1)“数据流量功能暂停与恢复”分词结果为:
表1
共分出3个词,所以特征向量应为(0…0,3,0…7,0…0,3,0…0)即只有“暂停”“恢复”“数据流量功能”对应的维度不为0,所以计算该向量的模的平方为:
3*3+3*3+7*7=67
(2)“数据流量套餐变更”分词结果为:
表2
所以计算该向量的模的平方为:
3*3+7*7=58
如果用户输入的短信为“请把我的数据流量暂停了,谢谢”。
提要素结果为
表3
所以计算该向量的模的平方为:
3*3+7*7=58。
计算a,b两向量夹角余弦值公式cosα=a.b/|a|*|b|;
输入短信特征向量与第一条模板特征向量点积结果为0*0+…0*0+3*3+7*7=58;
输入短信特征向量与第二条模板特征向量点积结果为0*0+…0*0+7*7=49;
所以与第一条模板得分为 58 / ( 58 * 67 ) = 0.93 ;
与第二条模板得分为 49 / ( 58 * 58 ) = 0.84 .
举例说明:
当用户输入:流量包年套餐,经过分词后,会分出词语:流量、包年、套餐,根据以上计算,可以得到以下几个候选:
第一个候选:biz:GPRS
Type:数据流量包年或半年套餐跟普通套餐有什么不一样的吗?Question:流量包年套餐
b_Score:0.800000 Score:1.000000
第二个候选:biz:积分服务
Type:怎么用积分兑换流量包?
Question:流量包
b_Score:0.632456 Score:0.632456
3、同义词扩展模块
同义词扩展计算得分的方法为:将可进行扩展的词依次换为该词的同义词,计算其得分。
例如:用户输入为“想把我的gprs暂停了”。
提要素结果为:
表4
计算该向量的模的平方为:
3*3+7*7=58
我们可以认为gprs与“移动数据流量功能”为同义词。
则在计算得分时,先按(暂停,gprs)计算一遍得分,这时,模板1的得分为:
Score _ A 1 = 3 * 3 / ( 58 * 67 ) = 0.144 , 模板2得分
同于现行系统在同义词扩展中将词的权重做了降低,具体作为是乘0.8,所以再将gprs替换成其同义词“移动数据流量功能”,按(暂停、移动数据流量功能)计算得分是计算模板1的得分为 Score _ A 2 = ( 3 * 3 + 0.8 * 7 * 0.8 * 7 ) / ( 58 * 67 ) = 0.647
(模板2得分Score_B2为 ( 0.8 * 7 * 0.8 * 7 ) / ( 58 * 58 ) = 0.54 .
然后从Score_A*中找到最大值为Score_A2,即模板1的最终得分是0.647;同理模板2的最终得分是0.54。
举例说明:
当用户输入:流量,经过分词后,会分出词语:流量,在系统中,我们设定gprs与流量是同义词,则检索结果中,最匹配的应该是完全相同的,其次是包含了gprs和流量的。候选结果示例如下:
第一个候选:biz:GPRS
Type:手机上网如何收费?
Question:流量
Score:1.000000
第二个候选:biz:GPRS
Type:手机上网如何收费?
Question:gprs流量
b_Score:0.894427
Score:0.894427
4、自学习模块
自学习模块也可以称为资源升级模块。
根据昨日运营商提供的问答库、今日局方提供的问答库将线下积累的问答库进行升级。从而实现动态更新问答库。主要逻辑如图4所示,具体流程图如图5所示。
其中:局方指的是运营商;QA库为问答对知识库;Style为问答对中的主题名称。
首先对比出局方问答对变化情况,若局方在某个style下新增了Question,首先判断是否与我们积累的问题库是否相同,若相同则不做更改;若新增的Question与我们之前的标注不一致,则调整我们该style的所有问答对。若局方没有新增Question,而是删除了部分Question,首先判断该Style是否全部删除,则之前标注的部分该Style及其问答对全部删除;若该Style仍然保留,但是其下的问题库一半以上发生变动,则将我们标注的部分提交局方确认;若只是小部分变动,则整体以局方为主。
使用过程说明:
依次输入的内容如下:
a.昨日局方FAQ文件路径
b.昨日我方积累FAQ文件路径
c.今日局方FAQ文件路径
d.需要将今日无风险无错误的FAQ文件输出路径
按照以上算法逻辑,对输入的FAQ资源进行对比,最终的输出结果格式有5种,如下:
对应于结果1:
2012/3/3018:01:17:963[信息]:[IsNewInCMCCNow]:怎么开通GPRS
上述表明,“怎么开通GPRS”已经被局方添加至新的QA库中,且局方标的Style与我方昨天标的Style相同,今日我方QA库中将不在添加该句。
对应于结果2:
2012/3/3018:01:17:963[信息]:[IsNewInCMCCNowButDIFF]:Question:给我开通GPRS
上述表明,“怎么开通GPRS”已经被局方添加至新的QA库中,但局方标的Style与我方昨天标的Style不同,今日我方QA库中将不在添加该句。
对应于结果3:
2012/3/3018:01:17:964[信息]:[NoExistTheStyle]:Question:怎么开通寒假两城一家Sytle:寒假两城一家
上述表明,“怎么开通寒假两城一家”对应的Style寒假两城一家在新的局方QA库中已经不存在了,今日我方QA库中将不在自动添加该句。
同理对应于结果4,日志格式为[信息]:[Normal]:
对应于结果5,日志格式为[信息]:[Risk]: 。

Claims (1)

1.一种电子渠道应用上的FAQ识别系统,其特征在于:包括如下模块:
FAQ分词模块,对模板和输入短信进行分词得到模板特征向量和输入短信特征向量,该模块采用前向、后向分词两种方法,将两种方法得到的分词结果合并,去掉相同的结果,同时保留两者不同的结果,所述的去掉相同的结果同时保留两者不同的结果的具体含义为去掉两种分词方法所得的分词结果中冗余部分;
检索出多候选模块,该模块用以计算输入短信特征向量与每一条模板特征向量的相似度得分,选出得分最高的若干候选项回复内容,推送给用户;
同义词扩展模块,将可进行扩展的词依次换为该词的同义词得到同义词替换后的输入短信特征向量,交由检索出多候选模块进行处理;
自学习模块,根据前一日局方提供的问答库、当日局方提供的问答库将线下问答库进行升级,从而实现动态更新线下问答库;
其中,所述检索出多候选模块计算输入短信特征向量与模板特征向量的相似度得分的具体算法为:每个句子的特征向量的维数由字典中词的个数决定,每一维的值是该维对应的词在该句子中的贡献值,该词在该句中不出现,则认为该维值为0;输入短信特征向量a与模板特征向量b的相似度得分计算公式为向量夹角余弦值计算公式:(a•b)/(|a|*|b|);
所述的自学习模块根据前一日局方提供的问答库、当日局方提供的问答库将线下问答库进行升级,从而实现动态更新线下问答库的具体更新步骤如下:
首先对比当日局方问答对与前一日局方问答对变化情况,若当日局方在某主题名称style下新增了问题Question,首先判断新增问题Question标注的主题名称是否与线下问答库中标注的主题名称相同,若相同,线下问答库不做更改,若不同,则调整线下问答库中该主题名称对应的所有问答对;若当日局方没有新增问题Question,而是删除了部分问题Question,首先判断该问题对应的主题名称style是否删除,若删除则将线下问答库中的该主题名称style及其问答对全部删除;若该主题名称style仍然保留,判断其下的问题是否一半以上发生变动,若是,将标注的问答对提交局方确认,否则,以局方为准更改线下问答库,其中:局方指的是运营商; Style为问答对中的主题名称。
CN201210579361.7A 2012-12-27 2012-12-27 电子渠道应用上的faq识别系统及方法 Active CN103049548B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210579361.7A CN103049548B (zh) 2012-12-27 2012-12-27 电子渠道应用上的faq识别系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210579361.7A CN103049548B (zh) 2012-12-27 2012-12-27 电子渠道应用上的faq识别系统及方法

Publications (2)

Publication Number Publication Date
CN103049548A CN103049548A (zh) 2013-04-17
CN103049548B true CN103049548B (zh) 2016-08-10

Family

ID=48062189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210579361.7A Active CN103049548B (zh) 2012-12-27 2012-12-27 电子渠道应用上的faq识别系统及方法

Country Status (1)

Country Link
CN (1) CN103049548B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123322A (zh) * 2013-04-28 2014-10-29 百度在线网络技术(北京)有限公司 基于同义处理获取与输入问题对应的相关问题的方法、设备
CN104375847B (zh) * 2013-08-14 2017-12-05 华为技术有限公司 识别业务类型的方法及装置
CN109213777A (zh) * 2017-06-29 2019-01-15 杭州九阳小家电有限公司 一种基于语音的食谱处理方法及系统
CN107862005A (zh) * 2017-10-25 2018-03-30 阿里巴巴集团控股有限公司 用户意图识别方法及装置
CN108763476A (zh) * 2018-05-29 2018-11-06 深圳市三宝创新智能有限公司 一种基于词性权重计算的问答数据清洗系统
CN109710746A (zh) * 2018-12-28 2019-05-03 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
CN109933661B (zh) * 2019-04-03 2020-12-18 上海乐言信息科技有限公司 一种基于深度生成模型的半监督问答对归纳方法和系统
CN110175232A (zh) * 2019-05-20 2019-08-27 泰康保险集团股份有限公司 信息处理方法、装置、电子设备及存储介质
CN111259655B (zh) * 2019-11-07 2023-07-18 上海大学 一种基于语义的物流智能客服问题相似度计算方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN101529413A (zh) * 2006-10-26 2009-09-09 微软公司 Faq的自动生成器和更新器
CN102193639A (zh) * 2010-03-04 2011-09-21 阿里巴巴集团控股有限公司 一种语句生成方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011126458A1 (en) * 2010-04-06 2011-10-13 National University Of Singapore Automatic frequently asked question compilation from community-based question answering archive

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101529413A (zh) * 2006-10-26 2009-09-09 微软公司 Faq的自动生成器和更新器
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法
CN102193639A (zh) * 2010-03-04 2011-09-21 阿里巴巴集团控股有限公司 一种语句生成方法及装置

Also Published As

Publication number Publication date
CN103049548A (zh) 2013-04-17

Similar Documents

Publication Publication Date Title
CN103049548B (zh) 电子渠道应用上的faq识别系统及方法
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN109543178B (zh) 一种司法文本标签体系构建方法及系统
CN101950284B (zh) 中文分词方法及系统
US7945437B2 (en) Systems and methods for using automated translation and other statistical methods to convert a classifier in one language to another language
CN101079025B (zh) 一种文档相关度计算系统和方法
CN109033307A (zh) 基于crp聚类的词语多原型向量表示及词义消歧方法
CN105975478A (zh) 一种基于词向量分析的网络文章所属事件的检测方法和装置
CN103605665A (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN104199965A (zh) 一种语义信息检索方法
CN1889108B (zh) 一种识别垃圾邮件的方法
CN103092828A (zh) 基于语义分析和语义关系网络的文本相似度度量方法
CN103514170A (zh) 一种语音识别的文本分类方法和装置
CN102651003A (zh) 一种跨语言搜索的方法和装置
CN109522547A (zh) 基于模式学习的中文同义词迭代抽取方法
CN104778256A (zh) 一种领域问答系统咨询的快速可增量聚类方法
CN105224520A (zh) 一种中文专利文献术语自动识别方法
CN110390022A (zh) 一种自动化的专业知识图谱构建方法
CN103927339B (zh) 知识重组系统和知识重组方法
CN103853746A (zh) 词库生成方法及其系统、输入法及输入系统
CN104572758A (zh) 一种电力领域专业词汇自动抽取方法及系统
CN107577713B (zh) 基于电力词典的文本处理方法
CN111191051A (zh) 一种基于中文分词技术的应急知识图谱的构建方法及系统
KR100435442B1 (ko) 문서 요약 방법 및 시스템
CN110413997A (zh) 针对电力行业的新词发现方法及其系统、可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Applicant after: Iflytek Co., Ltd.

Address before: 230088 Mount Huangshan Road, hi tech Development Zone, Anhui, Hefei 616

Applicant before: Anhui USTC iFLYTEK Co., Ltd.

COR Change of bibliographic data
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20200302

Address after: 230008 Floor 9, building 1, tianyuandike Science Park, No. 66, Qianshui East Road, hi tech Zone, Hefei City, Anhui Province

Patentee after: Anhui namoyun Technology Co., Ltd.

Address before: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Patentee before: IFLYTEK Co.,Ltd.

TR01 Transfer of patent right
CP03 Change of name, title or address

Address after: 230008 6th and 23rd floors of scientific research building, No.2 building, zone a, China sound Valley, 3333 Xiyou Road, high tech Zone, Hefei City, Anhui Province

Patentee after: Anhui taoyun Technology Co.,Ltd.

Address before: 9 / F, building 1, tianyuandike science and Technology Park, 66 Qianshui East Road, high tech Zone, Hefei City, Anhui Province

Patentee before: ANHUI TAOYUN TECHNOLOGY Co.,Ltd.

CP03 Change of name, title or address