CN105630890A - 基于智能问答系统会话历史的新词发现方法及系统 - Google Patents
基于智能问答系统会话历史的新词发现方法及系统 Download PDFInfo
- Publication number
- CN105630890A CN105630890A CN201510959114.3A CN201510959114A CN105630890A CN 105630890 A CN105630890 A CN 105630890A CN 201510959114 A CN201510959114 A CN 201510959114A CN 105630890 A CN105630890 A CN 105630890A
- Authority
- CN
- China
- Prior art keywords
- word
- candidate word
- neologisms
- degree
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于智能问答系统会话历史的新词发现方法,分析了新词的四个重要特征,即含有多个字、在一定数量的文本中出现多次、具有较高的凝固度,具有较高的自由度,通过数学语言进行定义,使计算机可以直接计算给定文本中的给定的若干候选字是否满足新词的特征,从而对新词进行识别。本发明还提供了一种基于智能问答系统会话历史的新词发现系统,将新词发现系统融合到智能问答系统中,使得智能问答系统具备自动发现新词的功能,持续完善和提高了智能问答系统的性能。
Description
技术领域
本发明涉及智能问答领域,特别是一种基于智能问答系统会话历史的新词发现方法及系统。
背景技术
智能问答系统,又称智能机器人,可以接受用户的自然语言输入,分析用户的真实意图,得到唯一的答案返回给用户。随着人工智能技术的进步,智能问答系统,迎来了新一轮的发展热潮。国内外软件公司纷纷推出多款产品,这其中,有以GoogleNow,微软小冰,百度的小度机器人为代表的聊天机器人,可以满足用户生活、娱乐的需要;也有以北京中科汇联科技股份有限公司研发的微喂智能机器人、爱客服智能机器人为代表的专业智能客服机器人,可以满足企事业单位客户服务工作的需要,帮助企事业单位提升客户服务满意度,提高客户服务工作效率,降低客户服务成本。智能问答系统,已经在人们的工作和生活中扮演越来越重要的角色,也正因为此,智能问答系统被称为人工智能皇冠上的明珠,成为科研界、企业界持续关注的热点方向。
智能问答系统是一个非常复杂的软件系统,使用了几乎所有的自然语言处理和深度学习技术,比如分词、词性标注、命名实体识别、语法分析、句法分析、卷积神经网络、递归神经网络等等。这其中,分词是一项最为基础的工作,分词结果的好坏直接决定了智能问答系统能否正确的理解用户输入。目前,所有主流的分词器都有内置的词典,词典包含所有已知词语的条目。如果句子中的所有词都在词典中已经收录,主流分词器将该句话进行正确分词的概率在95%以上。如果句子中的某个词在词典中未收录,则分词器很可能无法对这句话进行正确的分词。
互联网的普及,知识的爆炸性增长和不断创造,使得新的词汇不断涌现,比如“大众创业”、“万众创新”、“然并卵”、“duang”,这里面既有政府政策和工作中出现的新提法,也有忽然之间发端于互联网的新表达。海量新词的发现使得分词效果面临极大的挑战,进而影响到了智能问答系统的语义理解水平。以“然并卵”为例,只有将其作为一个词看待,才有可能从语义上理解出这个词表达的含义是“然而并没有什么卵用”。
那么,如何发现和识别新的词语就成为一个亟待解决的问题。一种解决方法是通过人工筛选的方法来发现和识别新词,但是随着信息的爆炸式增长,新的词语也注定层出不穷,随着中国劳动人口的减少和工作收入的增加,依靠人力的方法成本高昂,以致于难以负担。
发明内容
为了克服现有技术的不足,发明人对互联网涌现的新词汇进行深入研究,发现用户无论通过何种途经学习到的新的词语,最终都会应用到自己与人、或者机器人的交互过程中。智能问答系统的会话历史是用户与机器聊天的完整记录。将大量用户与智能问答系统的会话历史进行汇总,就能得到人们日常生活工作中经常使用的字、词、句的语料库,这其中自然也会包含人们对新词的使用,并且,越是常用的新词,它出现的频率就会越高,出现在不同搭配和句式中的次数也会越多。
发明人进一步对这些出现在语料库中的新词语进行分析,总结得到这些新词的的四个鲜明特征:(1)一个词由若干个字组成,(2)一个词在一定规模的语料中肯定会多次出现;(3)词语具有较好的凝固度,即作为词语的若干个字在一个规模较大的语料中连续出现的概率要远大于不作为词语的若干个字在一个规模较大的语料中连续出现的概率;(4)词语具有较好的自由度,即作为词语的若干个字,可以和其它的字、词进行各种不同的搭配和组合,如若不然,此连续出现的若干个字很可能只是一个真正词语的子串。也就是说,只有同时满足了上述四个鲜明的特征的若干个字,才可能是一个新词。本发明正是基于此,提出计算新词特征的方法,并应用此方法从智能问答系统的会话历史中发现新词,以提高智能问答系统的语义分析效果,持续完善和提高智能问答系统的性能。
本发明提供一种基于智能问答系统会话历史的新词发现方法,所述方法包括如下步骤:
S1、对智能问答系统的会话历史建立索引,所述索引中包含新词的候选词;
S2、依次遍历索引中的候选词,计算每个候选词在所述会话历史中的出现频度,如果候选词的出现频度低于预设的频度阈值,则判断该候选词不是新词,如果候选词的出现频度不低于所述频度阈值,则执行步骤S3;
S3、计算候选词的凝固度,如果候选词的凝固度低于预设的凝固度阈值,则判断该候选词不是新词,如果候选词的凝固度不低于所述凝固度阈值,则执行步骤S4;
S4、计算候选词的自由度,如果候选词的自由度低于预设的自由度阈值,则判断该候选词不是新词,如果候选词的自由度不低于所述自由度阈值,则判断该候选词为新词。
具体地,所述对智能问答系统的会话历史建立索引,所述索引中包含新词的候选词包括:
S11、建立索引;
S12、提取会话历史中的词语,判断所述词语是否已经存在于所述智能问答系统的系统词表中,如果已经存在,则判断所述词语不是新词的候选词,否则,判断所述词语是新词的候选词,并将其加入索引中。
优选地,所述步骤S12中的词语由任意连续出现的2个字、3个字、4个字或5个字组成。
优选地,所述步骤S1之前还包括:智能问答系统定时检测会话历史数据的大小,当检测到会话历史数据超过预设的数据阈值时,则触发新词判断流程。
进一步地,所述候选词的凝固度的计算公式为:
其中,n为候选词的总字数,分子部分P(W1W2...Wn)表示n个字在会话历史中连续出现的概率,Division(W1W2...Wn)表示候选词的一个划分,表示候选词的任意划分,表示候选词的任意划分的概率,表示候选词的所有划分的概率的最大值。
进一步地,所述候选词的自由度的计算公式为:
FlexibilityRate(W1W2...Wn)=min(Entropy(LeftNeighbourWordSet),Entropy(RightNeighbourWordSet))
其中,Entropy(LeftNeighbourWordSet)表示候选词左邻接字集的熵,Entropy(RightNeighbourWordSet)表示候选词右邻接字集的熵,候选词的自由度为左邻接字集的熵和右邻接字集的熵中的最小值。
进一步地,所述左邻接字集是指会话历史中出现在候选词左面的所有字的集合,所述右邻接字集是指会话历史中出现在候选词右面的所有字的集合;
所述左邻接字集或右邻接字集的熵通过邻接字集熵的计算公式计算得到,邻接字集熵的计算公式为:Entropy=∑(-PWilogPWi),其中PWi表示邻接字集中某个字的概率。
优选地,所述步骤S4之后还包括:将判断为新词的候选词存入新词词库。
相应地,本发明还提供了一种基于智能问答系统会话历史的新词发现系统,所述系统包括:
候选词索引,其存储有新词的候选词;
判断模块,其用于依次遍历候选词词库中的候选词,计算每个候选词在所述会话历史中的出现频度,如果候选词的出现频度低于预设的频度阈值,则判断该候选词不是新词,如果候选词的出现频度不低于所述频度阈值,则计算候选词的凝固度,如果候选词的凝固度低于预设的凝固度阈值,则判断该候选词不是新词,如果候选词的凝固度不低于所述凝固度阈值,则计算候选词的自由度,如果候选词的自由度低于预设的自由度阈值,则判断该候选词不是新词,如果候选词的自由度不低于所述自由度阈值,则判断该候选词为新词;
新词词库,其用于存储判断模块判断得到的新词。
进一步地,所述系统还包括触发模块和候选词判断模块,
所述触发模块,其用于定时检测智能问答系统的会话历史数据的大小,当检测到会话历史数据超过预设的数据阈值时,触发新词发现流程;
所述候选词判断模块,其用于提取会话历史中的词语,判断所述词语是否已经存在于所述智能问答系统的系统词表中,如果已经存在,则判断所述词语不是新词的候选词,否则,判断所述词语是新词的候选词,并将其加入候选词索引中。
本发明具有以下有益效果:
(1)本发明将新词的四个特征,即含有多个字、在一定数量的文本中出现多次、具有较高的凝固度,具有较高的自由度,通过数学语言进行定义,使得计算机可以直接计算给定文本中的给定若干候选字是否满足词的特征,从而对新词进行识别,并以智能问答系统的会话历史为语料,词语的特征规律明显,新词识别的准确性较高。
(2)将新词发现系统融合到智能问答系统中,使得智能问答系统具备自动发现新词的功能,能够提升智能问答系统的语义理解智能化水平,达到系统自学习的目的,使智能问答系统的性能可以持续完善和提高。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是基于智能问答系统会话历史的新词发现流程。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于智能问答系统会话历史的新词发现方法,首先,智能问答系统定时检测会话历史数据的大小,当检测到会话历史数据超过预设的数据阈值时,则触发新词发现流程。例如,可以在检测到会话历史数据超过10MB时触发新词发现流程。新词发现流程具体包括:
S1、对智能问答系统的会话历史建立索引,所述索引中包含新词的候选词。
具体地,所述对智能问答系统的会话历史建立索引,所述索引中包含新词的候选词包括:
S11、建立索引;
S12、提取会话历史中的词语,所述词语可以是由任意连续出现的2个字、3个字、4个字或5个字组成,判断所述词语是否已经存在于所述智能问答系统的系统词表中,如果已经存在,则判断所述词语不是新词的候选词,否则,判断所述词语是新词的候选词,并将其加入索引中。
S2、依次遍历索引中的候选词,计算每个候选词在所述会话历史中的出现频度,如果候选词的出现频度低于预设的频度阈值,则判断该候选词不是新词,如果候选词的出现频度不低于所述频度阈值,则执行步骤S3。
例如,候选词在正在处理的会话历史中的出现频度低于5次,则判断该候选词不是新词,将其丢弃,继续处理下一个候选词;如果候选词在正在处理的会话历史中的出现频度不低于5次,则判断该候选词可能是新词,并进入凝固度计算环节。
S3、计算候选词的凝固度,如果候选词的凝固度低于预设的凝固度阈值,则判断该候选词不是新词,如果候选词的凝固度不低于所述凝固度阈值,则执行步骤S4;
所述候选词的凝固度的计算公式为:
其中,n为候选词的总字数,分子部分P(W1W2...Wn)表示n个字在会话历史中连续出现的概率;Division(W1W2...Wn)表示候选词的一个划分,比如“爱客服”是一个候选词,则其有以下三种划分:爱+客+服,爱客+服,爱+客服;表示候选词的任意划分,表示候选词的任意划分的概率,表示候选词的所有划分的概率的最大值。
按照上述公式,如果凝固度比较小,说明候选词很可能是该候选含有的若干字随机地出现在一起;反之,则说明候选词很可能是一个词。但是凝固度比较高,并不一定说明这个候选词一定是新词。但如果一个候选词是新词,则该候选词的一个子串凝固度同样很高,因此为进一步确定该候选词是否为新词,还需要计算该候选词的自由度特征。
通过设置凝固度阈值淘汰凝固度过低的候选词。例如,按照上述凝固度计算公式计算得到某一候选词的凝固度,如果凝固度低于500,则丢弃该候选词,处理下一个候选词;如果凝固度不低于500,则进入自由度计算环节。通过这种筛选留下来的候选词是新词的几率更大。
S4、计算候选词的自由度,如果候选词的自由度低于预设的自由度阈值,则判断该候选词不是新词,如果候选词的自由度不低于所述自由度阈值,则判断该候选词为新词。
所述候选词的自由度的计算公式为:
FlexibilityRate(W1W2...Wn)=min(Entropy(LeftNeighbourWordSet),Entropy(RightNeighbourWordSet))
其中,Entropy(LeftNeighbourWordSet)表示候选词左邻接字集的熵,Entropy(RightNeighbourWordSet)表示候选词右邻接字集的熵,候选词的自由度为左邻接字集的熵和右邻接字集的熵中的最小值。
进一步地,所述左邻接字集是指会话历史中出现在候选词左面的所有字的集合,所述右邻接字集是指会话历史中出现在候选词右面的所有字的集合;所述左邻接字集或右邻接字集的熵通过邻接字集熵的计算公式计算得到,邻接字集熵的计算公式为:Entropy=∑(-PWilogPWi),其中PWi表示邻接字集中某个字的概率。
优选地,按照上述自由度计算公式,计算得到候选词的自由度,如果自由度低于1.5,则丢弃该候选词,并处理下一个候选词;如果自由度不低于1.5,则判断该候选词为新词。
S5、判断为新词的候选词存入新词词库。
本发明还提供了一种基于智能问答系统会话历史的新词发现系统,该系统与上述方法基于同样的发明构思。
所述系统包括:触发模块、候选词判断模块、候选词索引、判断模块及新词词库。
所述触发模块,其用于定时检测智能问答系统的会话历史数据的大小,当检测到会话历史数据超过预设的数据阈值时,触发新词发现流程;
所述候选词判断模块,其用于提取会话历史中的词语,判断所述词语是否已经存在于所述智能问答系统的系统词表中,如果已经存在,则判断所述词语不是新词的候选词,否则,判断所述词语是新词的候选词,并将其加入候选词索引中;
所述候选词索引,其存储有新词的候选词;
所述判断模块,其用于依次遍历索引中的候选词,计算每个候选词在所述会话历史中的出现频度,如果候选词的出现频度低于预设的频度阈值,则判断该候选词不是新词,如果候选词的出现频度不低于所述频度阈值,则计算候选词的凝固度,如果候选词的凝固度低于预设的凝固度阈值,则判断该候选词不是新词,如果候选词的凝固度不低于所述凝固度阈值,则计算候选词的自由度,如果候选词的自由度低于预设的自由度阈值,则判断该候选词不是新词,如果候选词的自由度不低于所述自由度阈值,则判断该候选词为新词;
所述新词词库,其用于存储判断模块判断得到的新词。
图1是基于智能问答系统会话历史的新词发现系统的新词发现流程图,包括对候选词的频度、凝固度和自由度的计算和比较判断,其具体的计算和判断方法与上述基于智能问答系统会话历史的新词发现方法一致。
本发明分析了新词的四个重要特征,提出计算新词特征的方法,给出了候选词的凝固度和自由度的数学计算公式,将新词特征计算方法应用到智能问答系统中,以从会话历史中发现新词,提高智能问答系统的语义分析效果,持续完善和提高智能问答系统的性能。
以上所揭露的仅为本发明的一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种基于智能问答系统会话历史的新词发现方法,其特征在于,所述方法包括如下步骤:
S1、对智能问答系统的会话历史建立索引,所述索引中包含新词的候选词;
S2、依次遍历索引中的候选词,计算每个候选词在所述会话历史中的出现频度,如果候选词的出现频度低于预设的频度阈值,则判断该候选词不是新词,如果候选词的出现频度不低于所述频度阈值,则执行步骤S3;
S3、计算候选词的凝固度,如果候选词的凝固度低于预设的凝固度阈值,则判断该候选词不是新词,如果候选词的凝固度不低于所述凝固度阈值,则执行步骤S4;
S4、计算候选词的自由度,如果候选词的自由度低于预设的自由度阈值,则判断该候选词不是新词,如果候选词的自由度不低于所述自由度阈值,则判断该候选词为新词。
2.根据权利要求1所述的方法,其特征在于,所述对智能问答系统的会话历史建立索引,所述索引中包含新词的候选词包括:
S11、建立索引;
S12、提取会话历史中的词语,判断所述词语是否已经存在于所述智能问答系统的系统词表中,如果已经存在,则判断所述词语不是新词的候选词,否则,判断所述词语是新词的候选词,并将其加入索引中。
3.根据权利要求2所述的方法,其特征在于,所述步骤S12中的词语由任意连续出现的2个字、3个字、4个字或5个字组成。
4.根据权利要求1或2所述的方法,其特征在于,所述步骤S1之前还包括:智能问答系统定时检测会话历史数据的大小,当检测到会话历史数据超过预设的数据阈值时,触发新词发现流程。
5.根据权利要求1所述的方法,其特征在于,所述候选词的凝固度的计算公式为: 其中,n为候选词的总字数,分子部分P(W1W2...Wn)表示n个字在会话历史中连续出现的概率,Division(W1W2...Wn)表示候选词的一个划分,表示候选词的任意划分,表示候选词的任意划分的概率,表示候选词的所有划分的概率的最大值。
6.根据权利要求1所述的方法,其特征在于,所述候选词的自由度的计算公式为:
FlexibilityRate(W1W2...Wn)=min(Entropy(LeftNeighbourWordSet),Entropy(RightNeighbourWordSet))
其中,Entropy(LeftNeighbourWordSet)表示候选词左邻接字集的熵,Entropy(RightNeighbourWordSet)表示候选词右邻接字集的熵,候选词的自由度为左邻接字集的熵和右邻接字集的熵中的最小值。
7.根据权利要求6所述的方法,其特征在于,所述左邻接字集是指会话历史中出现在候选词左面的所有字的集合,所述右邻接字集是指会话历史中出现在候选词右面的所有字的集合;
所述左邻接字集或右邻接字集的熵通过邻接字集熵的计算公式计算得到,邻接字集熵的计算公式为:Entropy=∑(-PWilogPWi),其中PWi表示邻接字集中某个字的概率。
8.根据权利要求1所述的方法,其特征在于,所述步骤S4之后还包括:将判断为新词的候选词存入新词词库。
9.一种基于智能问答系统会话历史的新词发现系统,其包含在智能问答系统中,其特征在于,所述系统包括:
候选词索引,其存储有新词的候选词;
判断模块,其用于依次遍历索引中的候选词,计算每个候选词在智能问答系统的会话历史中的出现频度,如果候选词的出现频度低于预设的频度阈值,则判断该候选词不是新词,如果候选词的出现频度不低于所述频度阈值,则计算候选词的凝固度,如果候选词的凝固度低于预设的凝固度阈值,则判断该候选词不是新词,如果候选词的凝固度不低于所述凝固度阈值,则计算候选词的自由度,如果候选词的自由度低于预设的自由度阈值,则判断该候选词不是新词,如果候选词的自由度不低于所述自由度阈值,则判断该候选词为新词;
新词词库,其用于存储判断模块判断得到的新词。
10.根据权利要求9所述的基于智能问答系统会话历史的新词发现系统,其特征在于,还包括触发模块和候选词判断模块,
所述触发模块,其用于定时检测智能问答系统的会话历史数据的大小,当检测到会话历史数据超过预设的数据阈值时,触发新词发现流程;
所述候选词判断模块,其用于提取会话历史中的词语,判断所述词语是否已经存在于所述智能问答系统的系统词表中,如果已经存在,则判断所述词语不是新词的候选词,否则,判断所述词语是新词的候选词,并将其加入候选词索引中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510959114.3A CN105630890B (zh) | 2015-12-18 | 2015-12-18 | 基于智能问答系统会话历史的新词发现方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510959114.3A CN105630890B (zh) | 2015-12-18 | 2015-12-18 | 基于智能问答系统会话历史的新词发现方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105630890A true CN105630890A (zh) | 2016-06-01 |
CN105630890B CN105630890B (zh) | 2017-06-16 |
Family
ID=56045823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510959114.3A Active CN105630890B (zh) | 2015-12-18 | 2015-12-18 | 基于智能问答系统会话历史的新词发现方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105630890B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182174A (zh) * | 2017-12-27 | 2018-06-19 | 掌阅科技股份有限公司 | 新词提取方法、电子设备及计算机存储介质 |
CN108319582A (zh) * | 2017-12-29 | 2018-07-24 | 北京城市网邻信息技术有限公司 | 文本消息的处理方法、装置和服务器 |
CN109299230A (zh) * | 2018-09-06 | 2019-02-01 | 华泰证券股份有限公司 | 一种客服舆情热点词数据挖掘系统及方法 |
CN109492224A (zh) * | 2018-11-07 | 2019-03-19 | 北京金山数字娱乐科技有限公司 | 一种词表构建的方法及装置 |
CN109857957A (zh) * | 2019-01-29 | 2019-06-07 | 掌阅科技股份有限公司 | 建立标签库的方法、电子设备及计算机存储介质 |
CN110750986A (zh) * | 2018-07-04 | 2020-02-04 | 普天信息技术有限公司 | 基于最小信息熵的神经网络分词系统及训练方法 |
CN112560448A (zh) * | 2021-02-20 | 2021-03-26 | 京华信息科技股份有限公司 | 一种新词提取方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101976233A (zh) * | 2010-09-30 | 2011-02-16 | 北京新媒传信科技有限公司 | 基于序列模式的新词发现方法 |
CN102930055A (zh) * | 2012-11-18 | 2013-02-13 | 浙江大学 | 结合内部聚合度和外部离散信息熵的网络新词发现方法 |
-
2015
- 2015-12-18 CN CN201510959114.3A patent/CN105630890B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101976233A (zh) * | 2010-09-30 | 2011-02-16 | 北京新媒传信科技有限公司 | 基于序列模式的新词发现方法 |
CN102930055A (zh) * | 2012-11-18 | 2013-02-13 | 浙江大学 | 结合内部聚合度和外部离散信息熵的网络新词发现方法 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182174A (zh) * | 2017-12-27 | 2018-06-19 | 掌阅科技股份有限公司 | 新词提取方法、电子设备及计算机存储介质 |
CN108319582A (zh) * | 2017-12-29 | 2018-07-24 | 北京城市网邻信息技术有限公司 | 文本消息的处理方法、装置和服务器 |
CN110750986A (zh) * | 2018-07-04 | 2020-02-04 | 普天信息技术有限公司 | 基于最小信息熵的神经网络分词系统及训练方法 |
CN110750986B (zh) * | 2018-07-04 | 2023-10-10 | 普天信息技术有限公司 | 基于最小信息熵的神经网络分词系统及训练方法 |
CN109299230A (zh) * | 2018-09-06 | 2019-02-01 | 华泰证券股份有限公司 | 一种客服舆情热点词数据挖掘系统及方法 |
CN109492224A (zh) * | 2018-11-07 | 2019-03-19 | 北京金山数字娱乐科技有限公司 | 一种词表构建的方法及装置 |
CN109492224B (zh) * | 2018-11-07 | 2024-05-03 | 北京金山数字娱乐科技有限公司 | 一种词表构建的方法及装置 |
CN109857957A (zh) * | 2019-01-29 | 2019-06-07 | 掌阅科技股份有限公司 | 建立标签库的方法、电子设备及计算机存储介质 |
CN109857957B (zh) * | 2019-01-29 | 2021-06-15 | 掌阅科技股份有限公司 | 建立标签库的方法、电子设备及计算机存储介质 |
CN112560448A (zh) * | 2021-02-20 | 2021-03-26 | 京华信息科技股份有限公司 | 一种新词提取方法及装置 |
CN112560448B (zh) * | 2021-02-20 | 2021-06-22 | 京华信息科技股份有限公司 | 一种新词提取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105630890B (zh) | 2017-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109241258B (zh) | 一种应用税务领域的深度学习智能问答系统 | |
Sharma et al. | Prediction of Indian election using sentiment analysis on Hindi Twitter | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN105630890A (zh) | 基于智能问答系统会话历史的新词发现方法及系统 | |
CN111625635A (zh) | 问答处理、语言模型的训练方法、装置、设备及存储介质 | |
CN110597988A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
JP5924666B2 (ja) | 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム | |
CN106776574B (zh) | 用户评论文本挖掘方法及装置 | |
CN108664599B (zh) | 智能问答方法、装置、智能问答服务器及存储介质 | |
CN109325124B (zh) | 一种情感分类方法、装置、服务器和存储介质 | |
CN105183717A (zh) | 一种基于随机森林和用户关系的osn用户情感分析方法 | |
Wu et al. | ECNU at SemEval-2017 task 3: Using traditional and deep learning methods to address community question answering task | |
Amali et al. | Classification of cyberbullying sinhala language comments on social media | |
CN112632239A (zh) | 基于人工智能技术的类脑问答系统 | |
Jedrzejewski et al. | Opinion mining and social networks: A promising match | |
CN116956068A (zh) | 基于规则引擎的意图识别方法、装置、电子设备及介质 | |
Kanev et al. | Application of formal grammar in text mining and construction of an ontology | |
Sharma et al. | Lexicon a linguistic approach for sentiment classification | |
CN111708870A (zh) | 基于深度神经网络的问答方法、装置及存储介质 | |
Otani et al. | Large-scale acquisition of commonsense knowledge via a quiz game on a dialogue system | |
CN112989001B (zh) | 一种问答处理方法、装置、介质及电子设备 | |
CN114580407A (zh) | 一种基于最大熵的园区产业招商智能咨询方法及系统 | |
Emam et al. | Opinion mining techniques and tools: a case study on an Arab newspaper | |
Faturohman et al. | Sentiment Analysis on Social Security Administrator for Health Using Recurrent Neural Network | |
Lin et al. | Cultural Event Extraction for Chinese Public Libraries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: You Shixue Inventor after: Du Xinkai Inventor after: Zhou Ruixiang Inventor before: You Shixue Inventor before: Du Xinkai |