CN107092588A - 一种文本信息处理方法、装置和系统 - Google Patents

一种文本信息处理方法、装置和系统 Download PDF

Info

Publication number
CN107092588A
CN107092588A CN201610091229.XA CN201610091229A CN107092588A CN 107092588 A CN107092588 A CN 107092588A CN 201610091229 A CN201610091229 A CN 201610091229A CN 107092588 A CN107092588 A CN 107092588A
Authority
CN
China
Prior art keywords
candidate
neologisms
probability
training corpus
word string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610091229.XA
Other languages
English (en)
Other versions
CN107092588B (zh
Inventor
林全郴
刘黎春
赵建春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610091229.XA priority Critical patent/CN107092588B/zh
Priority to PCT/CN2017/073020 priority patent/WO2017140221A1/zh
Priority to EP17752653.0A priority patent/EP3418906A4/en
Priority to JP2018518610A priority patent/JP6594534B2/ja
Publication of CN107092588A publication Critical patent/CN107092588A/zh
Priority to US15/940,159 priority patent/US10496747B2/en
Application granted granted Critical
Publication of CN107092588B publication Critical patent/CN107092588B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种文本信息处理方法、装置和系统;本实施例采用将训练语料划分为单字,以及字串,并分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率,然后,根据该独立概率和联合概率选择候选新词,得到候选新词集合,在确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词;该方案不仅可以简化流程,节省计算资源,而且,可以提高新词发现率,改善处理效果。

Description

一种文本信息处理方法、装置和系统
技术领域
本发明涉及通信技术领域,具体涉及一种文本信息处理方法、装置和系统。
背景技术
随着科学技术的不断发展,用户产生的文本语料也呈现指数级增长,不断发生的新事物催生很多新词语,如“非典”等。新词语的出现常常令一些文本处理模型,如分词,变得不知所措,而分词是中文自然语言处理中最基础的一个环节,不理想的分词结果势必影响诸如文本分类、聚类以及主题识别等常见的文本处理任务,因此对新词的自动发现显得非常必要。
现有的新词发现方法一般可分为基于统计和基于规则两种方法。其中,基于统计的方法常见有隐马尔可夫模型、最大熵、以及支持向量机等,这些统计信息常常用于生成分词模型;而基于规则方法则是从模板特征库和已标注上下文搭配特征的训练集中学习一些规则,进而再把学习得到的规则用于待发现新词语料,常见的一些规则如词语构造规则等。
在对现有技术的研究和实践过程中,本发明的发明人发现,现有方案都需要对文本语料进行分词,而这种基于分词的新词发现方案,需要不断将训练语料和待发现新词语料组合,重新生成分词模型训练语料,不断滚动的去发现新词,流程复杂,需要耗费较多计算资源;而且,由于新词没有明确定义,因此,其边界也较难确定,用常规的词典和规则对其进行过滤,也往往达不到良好效果,新词发现率较低。
发明内容
本发明实施例提供一种文本信息处理方法、装置和系统,不仅可以简化流程,节省计算资源,而且,可以提高新词发现率,改善处理效果。
本发明实施例提供一种文本信息处理方法,包括:
获取文本信息,并根据所述文本信息确定训练语料;
将所述训练语料划分为单字,以及字串;
分别统计所述单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率;
根据所述独立概率和联合概率选择候选新词,得到候选新词集合;
确定所述候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定所述候选新词为新词。
相应的,本发明实施例还提供一种文本信息的处理装置,包括:
获取单元,用于获取文本信息,并根据所述文本信息确定训练语料;
划分单元,用于将所述训练语料划分为单字,以及字串;
统计单元,用于分别统计所述单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率;
选择单元,用于根据所述独立概率和联合概率选择候选新词,得到候选新词集合;
确定单元,用于确定所述候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定所述候选新词为新词。
此外,本发明实施例还提供一种文本信息的处理系统,包括本发明实施例提供的任一种文本信息的处理装置。
本发明实施例采用将训练语料划分为单字,以及字串,并分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率,然后,根据该独立概率和联合概率选择候选新词,得到候选新词集合,在确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词;由于该方案无需进行分词,也无需不断更新分词模型,因此,可以大大简化流程,以及节省计算资源,而且,由于无需进行分词界限的划定,因此,也可以避免现有技术中由于新词界限模糊所导致的新词无法被发现的情况的发生,可以大大提高新词发现率,改善处理效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的文本信息处理系统的场景示意图;
图1b是本发明实施例提供的文本信息处理方法的流程图;
图2是本发明实施例提供的文本信息处理方法的另一流程图;
图3a是本发明实施例提供的文本信息处理装置的结构示意图;
图3b是本发明实施例提供的文本信息处理装置的另一结构示意图;
图4是本发明实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种文本信息处理方法、装置和系统。
该文本信息处理系统可以包括本发明实施例所提供的任一种文本信息处理装置,该文本信息处理装置具体可以集成在服务器中,如图1a所示,该服务器可以获取文本信息,比如,可以从网络中获取新闻、影视剧信息、用户生成内容(UGC,User Generated Content),比如用户发表的文章、微博和/或博客等文本信息,并根据该文本信息确定训练语料,然后,将该训练语料划分为单字,以及字串,分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率,再然后,根据该独立概率和联合概率选择候选新词,得到候选新词集合,将该候选新词集合中的候选新词与预设常用词典进行匹配,若该候选新词不在预设常用词典中,且联合概率大于预设阈值,则确定该候选新词为新词,从而达到发现新词的目的。
以下分别进行详细说明。
实施例一、
本实施例将从文本信息处理装置的角度进行描述,该文本信息处理装置具体可以集成在服务器等网络设备中。
一种文本信息处理方法,包括:获取文本信息,并根据该文本信息确定训练语料;将该训练语料划分为单字,以及字串;分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率;根据该独立概率和联合概率选择候选新词,得到候选新词集合;确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词。
如图1b所示,该文本信息处理方法的具体流程可以如下:
101、获取文本信息,并根据该文本信息确定训练语料。
其中,该文本信息可以是网络中各种文本信息,比如新闻、影视剧信息、以及用户生成内容(UGC,User Generated Content)等,其中,该UGC可以包括用户发表的心情、说说、评论、文章、微博和/或博客等文本信息。
在获取到文本信息后,可以将获取到的所有文本信息作为训练语料,也可以选取该文本信息中一部分作为训练语料,比如,可以按照预设策略对该文本信息进行筛选,以去除一些无用的信息,比如表情符号等,然后,将筛选后的文本信息作为训练语料,等等。
102、将该训练语料划分为单字,以及字串。
其中,字串指的是两个以上的连续单字,比如,一般可以是二、三或四个连续单字,具体数量可以根据实际应用场景而定。
需说明的是,本发明实施例所说的单字,可以包括汉字或日语等文字,为了描述方便,本发明实施例均以汉字为例进行说明。
103、分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率。例如,具体可以如下:
(1)分别统计单字在训练语料中出现的次数、字串在训练语料中出现的次数,以及该训练语料的总字数。
(2)根据该单字在训练语料中出现的次数和该训练语料的总字数计算单字的概率,得到单字的独立概率。
比如,可以用该单字在训练语料中出现的次数除以该训练语料的总字数,即可得到该单字的独立概率,用公式表示即为:
其中,p(Wk)为单字的独立概率,count(Wk)为单字在训练语料中出现的次数,为训练语料的总字数。
(3)根据该字串在训练语料中出现的次数和该训练语料的总字数计算字串的概率,得到字串所对应的联合概率。
比如,可以将该字串在训练语料中出现的次数除以该训练语料的总字数,即可得到字串所对应的联合概率,用公式表示即为:
其中,p(Wj...Wj+k)为字串所对应的联合概率,count(Wj...Wj+k)为字串在训练语料中出现的次数,为训练语料的总字数。
104、根据该独立概率和联合概率选择候选新词,得到候选新词集合。
例如,可以将字串所对应的联合概率与该字串中所有单字的独立概率的乘积进行比较,若大于该乘积,则将该字串确定为候选新词,即具体可以如下:
确定当前需要处理的字串,得到当前字串;获取该当前字串所对应的联合概率,以及该当前字串中所有单字的独立概率;确定该当前字串所对应的联合概率大于该当前字串中所有单字的独立概率的乘积时,将该当前字串确定为候选新词;将该候选新词添加至候选新词集合中。用公式表示即为:
当p(Wj)p(Wj+1)...p(Wj+k)<p(Wj...Wj+k)时,将该当前字串确定为候选新词。
由于字串(候选新词)在语料中不断出现,势必更有可能成为新词,因此,可选的,为了提高发现新词的准确率,可以根据人的阅读速度把训练语料大小转化成时间长短,然后,再根据艾宾浩斯记忆规律,不断学习,并对联合概率进行更新,即在步骤“根据该独立概率和联合概率选择候选新词,得到候选新词集合”之后,该文本信息处理方法还可以包括:
根据艾宾浩斯记忆规律对该候选新词集合中候选新词所对应的联合概率进行实时更新,得到更新后联合概率;例如,可以如下:
(1)从该候选新词集合中确定当前需要处理的候选新词。
(2)估算从该训练语料的训练开始位置到该当前需要处理的候选新词的位置所需要的阅读时间,得到前向时间。
例如,可以确定该训练语料的训练开始位置,以及确定该当前需要处理的候选新词在该训练语料中的顺序位置,然后,计算该训练开始位置到该顺序位置的距离,得到第一距离,将该第一距离除以预设阅读速度,得到前向时间。用公式表示即为:
其中,Tpre表示前向时间;POSi表示第i个候选新词在语料中的位置;δ表示阅读速度,是常量,具体可以根据实际应用的需求进行设置,比如,可以将该δ设置为8,即每秒八个单字。
(3)估算从该当前需要处理的候选新词的位置到该训练语料的训练结束位置所需要的阅读时间,得到后置时间;
例如,可以确定该训练语料的训练结束位置,以及确定该当前需要处理的候选新词在该训练语料中的逆序位置,然后,计算该逆序位置到该训练结束位置的距离,得到第二距离,将该第二距离除以预设阅读速度,得到后置时间。用公式表示即为:
其中,Tbck表示后置时间;POSi表示第i个候选新词在语料中的位置;Len表示该训练语料的总长度;δ表示阅读速度,是常量,具体可以根据实际应用的需求进行设置,比如,可以将该δ设置为8,即每秒八个单字。
(4)根据该前向时间和后置时间,利用预置的指数衰减式函数对该当前需要处理的候选新词的联合概率进行实时更新,得到更新后联合概率。
其中,该指数衰减式函数可以根据艾宾浩斯记忆规律进行构造,比如,可以如下:
其中,f(Seqi)表示候选新词成新词的概率大小;α是衰减常量,表示衰减幅度,可根据实际应用的需求进行调整;Tpre为前向时间;Tbck为后置时间。
需说明的是,在进行候选新词的成词概率计算时,可以根据迭代次数会将训练语料按顺序平均生成相应的训练开始位置,确保每一次迭代计算的开始位置都不同,而且最大可能保证在生成Tpre和Tbck不受开始位置的影响,即在步骤“根据艾宾浩斯记忆规律对该候选新词集合中候选新词对应的联合概率进行实时更新,得到更新后联合概率”之前,该文本信息处理方法还可以包括:
获取需要迭代的次数;根据该迭代次数将该训练语料按顺序平均生成相应的训练开始位置,使得每一次迭代的训练开始位置均不同;根据该训练开始位置确定相应训练结束位置。
则此时,步骤“确定该训练语料的训练开始位置”具体可以为:根据当前迭代序位确定相应的训练开始位置;
步骤“确定该训练语料的训练结束位置”具体可以为:根据当前迭代序位确定相应的训练结束位置。
其中,需要迭代的次数可以根据实际应用的需求进行设置,比如,可以设置为100次,等等。
此外,还需说明的是,除了可以采用艾宾浩斯记忆规律来构造该指数衰减式函数之外,还可以采用其他的“可模仿指数衰减规律”的函数,如牛顿冷却定律,等等。
(5)返回执行从该候选新词集合中确定当前需要处理的候选新词的步骤,即返回执行步骤(1),直至该候选新词集合中所有的候选新词的联合概率更新完毕。
105、确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词。
需说明的是,如果该联合概率已经进行了更新,则此时需要采用更新后的联合概率进行比较,即步骤“确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词”具体可以为:
确定该候选新词集合中的候选新词不在预设常用词典中,且更新后的联合概率大于预设阈值时,确定该候选新词为新词。
其中,该预设阈值和常用字典可以根据实际应用的需求进行设置。
由上可知,本实施例采用将训练语料划分为单字,以及字串,并分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率,然后,根据该独立概率和联合概率选择候选新词,得到候选新词集合,在确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词;由于该方案无需进行分词,也无需不断更新分词模型,因此,可以大大简化流程,以及节省计算资源,而且,由于无需进行分词界限的划定,因此,也可以避免现有技术中由于新词界限模糊所导致的新词无法被发现的情况的发生,可以大大提高新词发现率,改善处理效果。
实施例二、
根据实施例一所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以汉字,且该文本信息处理装置具体集成在服务器中为例进行说明。
如图2所示,一种文本信息处理方法的具体流程可以如下:
201、服务器获取文本信息,并根据该文本信息确定训练语料。
其中,该文本信息可以是网络中各种文本信息,比如新闻、影视剧信息、以及UGC等,其中,该UGC可以包括用户发表的心情、说说、评论、文章、微博和/或博客等文本信息。
在获取到文本信息后,可以将获取到的所有文本信息作为训练语料,也可以选取该文本信息中一部分作为训练语料,比如,可以按照预设策略对该文本信息进行筛选,以去除一些无用的信息,比如表情符号等,然后,将筛选后的文本信息作为训练语料,等等。
202、服务器将该训练语料划分为单字,以及字串。
其中,字串指的是两个以上的连续单字,比如,一般可以是二、三或四个连续单字,具体数量可以根据实际应用场景而定。
203、服务器统计各个单字在训练语料中出现的次数、字串在训练语料中出现的次数,以及该训练语料的总字数。
204、服务器根据该单字在训练语料中出现的次数和该训练语料的总字数计算单字的概率,得到单字的独立概率。
比如,可以用该单字在训练语料中出现的次数除以该训练语料的总字数,即可得到该单字的独立概率,用公式表示即为:
其中,p(Wk)为单字的独立概率,count(Wk)为单字在训练语料中出现的次数,为训练语料的总字数。
例如,单字“美”在训练语料中出现的次数为100次,而训练语料的总字数为100000个,则该单字“美”的独立概率为1/1000;同理,如果单字“好”在训练语料中出现的次数为1000次,而训练语料的总字数为100000个,则该单字“好”的独立概率为1/100,以此类推,等等。
205、服务器根据该字串在训练语料中出现的次数和该训练语料的总字数计算字串的概率,得到字串所对应的联合概率。
比如,可以将该字串在训练语料中出现的次数除以该训练语料的总字数,即可得到字串所对应的联合概率,用公式表示即为:
其中,p(Wj...Wj+k)为字串所对应的联合概率,count(Wj...Wj+k)为字串在训练语料中出现的次数,为训练语料的总字数。
例如,如果字串“美好”在训练语料中出现的次数为50次,而训练语料的总字数为100000个,则该字串“美好”的联合概率为1/2000;同理,如果字串“美丽”在训练语料中出现的次数为10次,而训练语料的总字数为100000个,则该字串“美丽”的联合概率为1/10000以此类推,等等。
需说明的是,步骤204和205的执行顺序可以不分先后。
206、服务器将字串所对应的联合概率与该字串中所有单字的独立概率的乘积进行比较,若大于该乘积,则将该字串确定为候选新词,即当p(Wj)p(Wj+1)...p(Wj+k)<p(Wj...Wj+k)时,将该当前字串确定为候选新词,此后,可以将该候选新词添加至候选新词集合中。例如,具体可以如下:
确定当前需要处理的字串,得到当前字串;获取该当前字串所对应的联合概率,以及该当前字串中所有单字的独立概率;确定该当前字串所对应的联合概率大于该当前字串中所有单字的独立概率的乘积时,将该当前字串确定为候选新词;将该候选新词添加至候选新词集合中。
比如,如果字串“美好”的联合概率为1/2000,而单字“美”的独立概率为1/1000,单字“好”的独立概率为1/100,则字串“美好”的联合概率大于单字“美”和“好”的独立概率的乘积,因此,可以确定字串“美好”为候选新词,依次类推。
207、服务器根据艾宾浩斯记忆规律对该候选新词集合中候选新词所对应的联合概率进行实时更新,得到更新后联合概率;例如,可以如下:
(1)从该候选新词集合中确定当前需要处理的候选新词。
其中,该候选新词集合中可以包括多个候选新词,可以逐一对这些候选新词的联合概率进行更新。
(2)估算从该训练语料的训练开始位置到该当前需要处理的候选新词的位置所需要的阅读时间,得到前向时间。
例如,可以确定该训练语料的训练开始位置,以及确定该当前需要处理的候选新词在该训练语料中的顺序位置,然后,计算该训练开始位置到该顺序位置的距离,得到第一距离,将该第一距离除以预设阅读速度,得到前向时间。用公式表示即为:
其中,Tpre表示前向时间;POSi表示第i个候选新词在语料中的位置;δ表示阅读速度,是常量,具体可以根据实际应用的需求进行设置,比如,可以将该δ设置为8,即每秒八个单字。
比如,如果候选新词“美好”在该训练语料中的顺序位置距离训练开始位置的距离为80000个字,而阅读速度δ为每秒八个字,则此时,可以计算出该候选新词“美好”的前向时间为80000/8=10000秒。
(3)估算从该当前需要处理的候选新词的位置到该训练语料的训练结束位置所需要的阅读时间,得到后置时间;
例如,可以确定该训练语料的训练结束位置,以及确定该当前需要处理的候选新词在该训练语料中的逆序位置,然后,计算该逆序位置到该训练结束位置的距离,得到第二距离,将该第二距离除以预设阅读速度,得到后置时间。用公式表示即为:
其中,Tbck表示后置时间;POSi表示第i个候选新词在语料中的位置;Len表示该训练语料的总长度;δ表示阅读速度,是常量,具体可以根据实际应用的需求进行设置,比如,可以将该δ设置为8,即每秒八个单字。
比如,如果候选新词“美好”在该训练语料中的逆序位置距离训练结束位置的距离为20000个字(即训练语料的总长度100000减去字串“美好”的前向位置80000),而阅读速度δ为每秒八个字,则此时,可以计算出该候选新词“美好”的后置时间为20000/8=2500秒。
(4)根据该前向时间和后置时间,利用预置的指数衰减式函数对该当前需要处理的候选新词的联合概率进行实时更新,得到更新后联合概率。
其中,该指数衰减式函数可以根据艾宾浩斯记忆规律进行构造,比如,可以如下:
其中,f(Seqi)表示候选新词成新词的概率大小;α是衰减常量,表示衰减幅度,可根据实际应用的需求进行调整;Tpre为前向时间;Tbck为后置时间。
需说明的是,在进行候选新词的成词概率计算时,可以根据迭代次数会将训练语料按顺序平均生成相应的训练开始位置,确保每一次迭代计算的开始位置都不同,而且最大可能保证在生成Tpre和Tbck不受开始位置的影响,即在步骤“根据艾宾浩斯记忆规律对该候选新词集合中候选新词对应的联合概率进行实时更新,得到更新后联合概率”之前,该文本信息处理方法还可以包括:
获取需要迭代的次数;根据该迭代次数将该训练语料按顺序平均生成相应的训练开始位置,使得每一次迭代的训练开始位置均不同;根据该训练开始位置确定相应训练结束位置。
则此时,步骤“确定该训练语料的训练开始位置”具体可以为:根据当前迭代序位确定相应的训练开始位置;
步骤“确定该训练语料的训练结束位置”具体可以为:根据当前迭代序位确定相应的训练结束位置。
其中,需要迭代的次数可以根据实际应用的需求进行设置,比如,可以设置为100次,等等。
比如,假设待训练语料中,总共有100000条语料,设置的迭代次数是100轮,那么,第一轮迭代开始位置是第一条文本,结束位置是第100000条;第二轮迭代开始位置是1001条,相应的结束位置是999条;第k(k<100)轮迭代开始位置是(1000*(k-1)+1)位置,结束位置是(1000*(k-1)-1)位置,等等。
(5)返回执行从该候选新词集合中确定当前需要处理的候选新词的步骤,即返回执行步骤(1),直至该候选新词集合中所有的候选新词的联合概率更新完毕。
208、服务器确定该候选新词集合中的候选新词不在预设常用词典中,且更新后的联合概率大于预设阈值时,确定该候选新词为新词。
例如,可以将该候选新词集合中的候选新词与预设常用词典中的词语进行匹配,若该候选新词不存在于该常用词典中,且该候选新词当前的联合概率(即更新后联合概率)大于预设阈值,则确定该候选新词为新词;否则,若该候选新词存在于该常用词典中,或者,虽然该候选新词不存在于该常用词典中,但其当前的联合概率(即更新后联合概率)小于等于预设阈值,则确定该候选新词不是新词。
其中,该预设阈值和常用字典可以根据实际应用的需求进行设置。
比如,如果“美好”这个候选新词已经在词典中,则不将“美好”这个候选新词作为新词,而如果“猴赛雷”这个候选新词不在常用词典中,且“猴赛雷”的联合概率大于预设阈值,则可以确定“猴赛雷”为新词,等等。
由上可知,本实施例采用将训练语料划分为单字,以及字串,并分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率,然后,根据该独立概率和联合概率选择候选新词,得到候选新词集合,在确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词;由于该方案无需进行分词,也无需不断更新分词模型,因此,可以大大简化流程,以及节省计算资源,而且,由于无需进行分词界限的划定,因此,也可以避免现有技术中由于新词界限模糊所导致的新词无法被发现的情况的发生,可以大大提高新词发现率,改善处理效果。
该方案可用于生成大规模语料词库、词语权值计算(关键词或主题词提取)以及生成扩展词典等,此外,还可以用于对词语的检测,比如对恶意评论的检测,等等。
实施例三、
为了更好地实施以上方法,本发明实施例还提供一种文本信息的处理装置,如图3a所示,该文本信息处理装置可以包括获取单元301、划分单元302、统计单元303、选择单元304和确定单元305,如下:
(1)获取单元301;
获取单元301,用于获取文本信息,并根据该文本信息确定训练语料。
其中,该文本信息可以是网络中各种文本信息,比如新闻、影视剧信息、以及UGC等,其中,该UGC可以包括用户发表的心情、说说、评论、文章、微博和/或博客等文本信息。
在获取到文本信息后,可以将获取到的所有文本信息作为训练语料,也可以选取该文本信息中一部分作为训练语料,比如,可以按照预设策略对该文本信息进行筛选,以去除一些无用的信息,比如表情符号等,然后,将筛选后的文本信息作为训练语料,等等。
(2)划分单元302;
划分单元302,用于将该训练语料划分为单字,以及字串。
其中,字串指的是两个以上的连续单字,比如,一般可以是二、三或四个连续单字,具体数量可以根据实际应用场景而定。
(3)统计单元303;
统计单元303,用于分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率。例如,该统计单元303,具体可以用于:
分别统计该单字在训练语料中出现的次数、该字串在训练语料中出现的次数,以及该训练语料的总字数;
根据该单字在训练语料中出现的次数和总字数计算单字的概率,得到单字的独立概率;
根据该字串在训练语料中出现的次数和总字数计算字串的概率,得到字串所对应的联合概率。
具体可参见前面的方法实施例,在此不再赘述。
(4)选择单元304;
选择单元304,用于根据该独立概率和联合概率选择候选新词,得到候选新词集合。
例如,可以将字串所对应的联合概率与该字串中所有单字的独立概率的乘积进行比较,若大于该乘积,则将该字串确定为候选新词,即:
选择单元304,具体可以用于:确定当前需要处理的字串,得到当前字串;获取该当前字串所对应的联合概率,以及该当前字串中所有单字的独立概率;确定该当前字串所对应的联合概率大于该当前字串中所有单字的独立概率的乘积时,将该当前字串确定为候选新词;将该候选新词添加至候选新词集合中。
(5)确定单元305;
确定单元305,用于确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词。
其中,该预设阈值和常用字典可以根据实际应用的需求进行设置。
由于字串(候选新词)在语料中不断出现,势必更有可能成为新词,因此,为了提高发现新词的准确率,可以根据人的阅读速度把训练语料大小转化成时间长短,然后,再根据艾宾浩斯记忆规律,不断学习,并对联合概率进行更新,即可选的,如图3b所示,该文本信息的处理装置还可以包括更新单元306,如下:
该更新单元306,可以用于根据艾宾浩斯记忆规律对该候选新词集合中候选新词岁对应的联合概率进行实时更新,得到更新后联合概率。
则此时,确定单元305,具体可以用于确定该候选新词集合中的候选新词不在预设常用词典中,且更新后的联合概率大于预设阈值时,确定该候选新词为新词。
例如,该更新单元306,具体可以用于从该候选新词集合中确定当前需要处理的候选新词;估算从该训练语料的训练开始位置到该当前需要处理的候选新词的位置所需要的阅读时间,得到前向时间;估算从该当前需要处理的候选新词的位置到该训练语料的训练结束位置所需要的阅读时间,得到后置时间;根据该前向时间和后置时间,利用预置的指数衰减式函数对该当前需要处理的候选新词的联合概率进行实时更新,得到更新后联合概率,该指数衰减式函数根据艾宾浩斯记忆规律进行构造;返回执行从该候选新词集合中确定当前需要处理的候选新词的操作,直至该候选新词集合中所有的候选新词的联合概率更新完毕。
其中,前向时间和后置时间的计算方式可以如下:
该更新单元306,具体可以用于确定该训练语料的训练开始位置,以及确定该当前需要处理的候选新词在该训练语料中的顺序位置;计算该训练开始位置到该顺序位置的距离,得到第一距离;将该第一距离除以预设阅读速度,得到前向时间。
该更新单元306,具体可以用于确定该训练语料的训练结束位置,以及确定该当前需要处理的候选新词在该训练语料中的逆序位置;计算该逆序位置到该训练结束位置的距离,得到第二距离;将该第二距离除以预设阅读速度,得到后置时间。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
该文本信息处理装置具体可以集成在服务器等网络设备中。
由上可知,本实施例的文本信息的处理装置的划分单元302可以将训练语料划分为单字,以及字串,并由统计单元303分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率,然后,由选择单元304根据该独立概率和联合概率选择候选新词,得到候选新词集合,并由确定单元305在确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词;由于该方案无需进行分词,也无需不断更新分词模型,因此,可以大大简化流程,以及节省计算资源,而且,由于无需进行分词界限的划定,因此,也可以避免现有技术中由于新词界限模糊所导致的新词无法被发现的情况的发生,可以大大提高新词发现率,改善处理效果。
实施例四、
相应的,本发明实施例还提供一种文本信息的处理系统,包括本发明实施例所提供的任一种文本信息的处理装置,具体可参见实施例三,例如,可以如下:
文本信息的处理装置,用于获取文本信息,并根据该文本信息确定训练语料;将该训练语料划分为单字,以及字串;分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率;根据该独立概率和联合概率选择候选新词,得到候选新词集合;确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词。
其中,该文本信息可以是网络中各种文本信息,比如新闻、影视剧信息、以及UGC等,其中,该UGC可以包括用户发表的心情、说说、评论、文章、微博和/或博客等文本信息。
此外,该文本信息的处理系统还可以包括其他设备,比如用于存储数据的存储服务器,以及用于发表文本信息的终端设备,等等,在此不再赘述。
以上各个设备的具体实施可参见前面的方法实施例,在此不再赘述。
由于该文本信息的处理系统可以包括本发明实施例所提供的任一种文本信息的处理装置,因此,可以实现本发明实施例所提供的任一种文本信息的处理装置所能实现的有益效果,详见前面的实施例,在此不再赘述。
实施例五、
本发明实施例还提供一种服务器,如图4所示,其示出了本发明实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、射频(Radio Frequency,RF)电路403、电源404、输入单元405、以及显示单元406等部件。本领域技术人员可以理解,图4中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
RF电路403可用于收发信息过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器401处理;另外,将涉及上行的数据发送给基站。通常,RF电路403包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(LNA,Low Noise Amplifier)、双工器等。此外,RF电路403还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GSM,Global System ofMobile communication)、通用分组无线服务(GPRS,General Packet RadioService)、码分多址(CDMA,Code Division Multiple Access)、宽带码分多址(WCDMA,Wideband Code Division Multiple Access)、长期演进(LTE,LongTerm Evolution)、电子邮件、短消息服务(SMS,Short Messaging Service)等。
服务器还包括给各个部件供电的电源404(比如电池),优选的,电源404可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源404还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元405,该输入单元405可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元405可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器401,并能接收处理器401发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元405还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
该服务器还可包括显示单元406,该显示单元406可用于显示由用户输入的信息或提供给用户的信息以及服务器的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元406可包括显示面板,可选的,可以采用液晶显示器(LCD,Liquid Crystal Display)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器401以确定触摸事件的类型,随后处理器401根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图4中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
尽管未示出,服务器还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取文本信息,并根据该文本信息确定训练语料;将该训练语料划分为单字,以及字串;分别统计该单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率;根据该独立概率和联合概率选择候选新词,得到候选新词集合;确定该候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定该候选新词为新词。
以上各个操作的具体实施以及相应的有益效果可参见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
以上对本发明实施例所提供的一种文本信息处理方法、装置和系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (15)

1.一种文本信息处理方法,其特征在于,包括:
获取文本信息,并根据所述文本信息确定训练语料;
将所述训练语料划分为单字,以及字串;
分别统计所述单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率;
根据所述独立概率和联合概率选择候选新词,得到候选新词集合;
确定所述候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定所述候选新词为新词。
2.根据权利要求1所述的方法,其特征在于,所述分别统计所述单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率,包括:
分别统计所述单字在训练语料中出现的次数、所述字串在训练语料中出现的次数,以及所述训练语料的总字数;
根据所述单字在训练语料中出现的次数和总字数计算单字的概率,得到单字的独立概率;
根据所述字串在训练语料中出现的次数和总字数计算字串的概率,得到字串所对应的联合概率。
3.根据权利要求1所述的方法,其特征在于,所述根据所述独立概率和联合概率选择候选新词,得到候选新词集合,包括:
确定当前需要处理的字串,得到当前字串;
获取所述当前字串所对应的联合概率,以及所述当前字串中所有单字的独立概率;
确定所述当前字串所对应的联合概率大于所述当前字串中所有单字的独立概率的乘积时,将所述当前字串确定为候选新词;
将所述候选新词添加至候选新词集合中。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述独立概率和联合概率选择候选新词,得到候选新词集合之后,还包括:
根据艾宾浩斯记忆规律对所述候选新词集合中候选新词岁对应的联合概率进行实时更新,得到更新后联合概率;
所述确定所述候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定所述候选新词为新词,具体为:确定所述候选新词集合中的候选新词不在预设常用词典中,且更新后的联合概率大于预设阈值时,确定所述候选新词为新词。
5.根据权利要求4所述的方法,其特征在于,所述根据艾宾浩斯记忆规律对所述候选新词集合中候选新词对应的联合概率进行实时更新,得到更新后联合概率,包括:
从所述候选新词集合中确定当前需要处理的候选新词;
估算从所述训练语料的训练开始位置到所述当前需要处理的候选新词的位置所需要的阅读时间,得到前向时间;
估算从所述当前需要处理的候选新词的位置到所述训练语料的训练结束位置所需要的阅读时间,得到后置时间;
根据所述前向时间和后置时间,利用预置的指数衰减式函数对所述当前需要处理的候选新词的联合概率进行实时更新,得到更新后联合概率,所述指数衰减式函数根据艾宾浩斯记忆规律进行构造;
返回执行从所述候选新词集合中确定当前需要处理的候选新词的步骤,直至所述候选新词集合中所有的候选新词的联合概率更新完毕。
6.根据权利要求5所述的方法,其特征在于,所述估算从所述训练语料的训练开始位置到所述当前需要处理的候选新词的位置所需要的阅读时间,得到前向时间,包括:
确定所述训练语料的训练开始位置,以及确定所述当前需要处理的候选新词在所述训练语料中的顺序位置;
计算所述训练开始位置到所述顺序位置的距离,得到第一距离;
将所述第一距离除以预设阅读速度,得到前向时间。
7.根据权利要求5所述的方法,其特征在于,所述估算从所述当前需要处理的候选新词的位置到所述训练语料的训练结束位置所需要的阅读时间,得到后置时间,包括:
确定所述训练语料的训练结束位置,以及确定所述当前需要处理的候选新词在所述训练语料中的逆序位置;
计算所述逆序位置到所述训练结束位置的距离,得到第二距离;
将所述第二距离除以预设阅读速度,得到后置时间。
8.一种文本信息的处理装置,其特征在于,包括:
获取单元,用于获取文本信息,并根据所述文本信息确定训练语料;
划分单元,用于将所述训练语料划分为单字,以及字串;
统计单元,用于分别统计所述单字和字串在训练语料中出现的概率,得到单字的独立概率,以及字串所对应的联合概率;
选择单元,用于根据所述独立概率和联合概率选择候选新词,得到候选新词集合;
确定单元,用于确定所述候选新词集合中的候选新词不在预设常用词典中,且联合概率大于预设阈值时,确定所述候选新词为新词。
9.根据权利要求8所述的装置,其特征在于,所述统计单元,具体用于:
分别统计所述单字在训练语料中出现的次数、所述字串在训练语料中出现的次数,以及所述训练语料的总字数;
根据所述单字在训练语料中出现的次数和总字数计算单字的概率,得到单字的独立概率;
根据所述字串在训练语料中出现的次数和总字数计算字串的概率,得到字串所对应的联合概率。
10.根据权利要求8所述的装置,其特征在于,所述选择单元,具体用于:
确定当前需要处理的字串,得到当前字串;
获取所述当前字串所对应的联合概率,以及所述当前字串中所有单字的独立概率;
确定所述当前字串所对应的联合概率大于所述当前字串中所有单字的独立概率的乘积时,将所述当前字串确定为候选新词;
将所述候选新词添加至候选新词集合中。
11.根据权利要求8至10任一项所述的装置,其特征在于,还包括更新单元;
所述更新单元,用于根据艾宾浩斯记忆规律对所述候选新词集合中候选新词岁对应的联合概率进行实时更新,得到更新后联合概率;
所述确定单元,具体用于确定所述候选新词集合中的候选新词不在预设常用词典中,且更新后的联合概率大于预设阈值时,确定所述候选新词为新词。
12.根据权利要求11所述的装置,其特征在于,
所述更新单元,具体用于从所述候选新词集合中确定当前需要处理的候选新词;估算从所述训练语料的训练开始位置到所述当前需要处理的候选新词的位置所需要的阅读时间,得到前向时间;估算从所述当前需要处理的候选新词的位置到所述训练语料的训练结束位置所需要的阅读时间,得到后置时间;根据所述前向时间和后置时间,利用预置的指数衰减式函数对所述当前需要处理的候选新词的联合概率进行实时更新,得到更新后联合概率,所述指数衰减式函数根据艾宾浩斯记忆规律进行构造;返回执行从所述候选新词集合中确定当前需要处理的候选新词的操作,直至所述候选新词集合中所有的候选新词的联合概率更新完毕。
13.根据权利要求12所述的装置,其特征在于,
所述更新单元,具体用于确定所述训练语料的训练开始位置,以及确定所述当前需要处理的候选新词在所述训练语料中的顺序位置;计算所述训练开始位置到所述顺序位置的距离,得到第一距离;将所述第一距离除以预设阅读速度,得到前向时间。
14.根据权利要求12所述的装置,其特征在于,
所述更新单元,具体用于确定所述训练语料的训练结束位置,以及确定所述当前需要处理的候选新词在所述训练语料中的逆序位置;计算所述逆序位置到所述训练结束位置的距离,得到第二距离;将所述第二距离除以预设阅读速度,得到后置时间。
15.一种文本信息的处理系统,其特征在于,包括权利要求8至14任一项所述的文本信息的处理装置。
CN201610091229.XA 2016-02-18 2016-02-18 一种文本信息处理方法、装置和系统 Active CN107092588B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201610091229.XA CN107092588B (zh) 2016-02-18 2016-02-18 一种文本信息处理方法、装置和系统
PCT/CN2017/073020 WO2017140221A1 (zh) 2016-02-18 2017-02-07 文本信息处理方法和装置
EP17752653.0A EP3418906A4 (en) 2016-02-18 2017-02-07 TEXT INFORMATION PROCESSING AND DEVICE
JP2018518610A JP6594534B2 (ja) 2016-02-18 2017-02-07 テキスト情報処理方法およびデバイス
US15/940,159 US10496747B2 (en) 2016-02-18 2018-03-29 Text information processing method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610091229.XA CN107092588B (zh) 2016-02-18 2016-02-18 一种文本信息处理方法、装置和系统

Publications (2)

Publication Number Publication Date
CN107092588A true CN107092588A (zh) 2017-08-25
CN107092588B CN107092588B (zh) 2022-09-09

Family

ID=59624796

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610091229.XA Active CN107092588B (zh) 2016-02-18 2016-02-18 一种文本信息处理方法、装置和系统

Country Status (5)

Country Link
US (1) US10496747B2 (zh)
EP (1) EP3418906A4 (zh)
JP (1) JP6594534B2 (zh)
CN (1) CN107092588B (zh)
WO (1) WO2017140221A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020120A (zh) * 2017-10-10 2019-07-16 腾讯科技(北京)有限公司 内容投放系统中的特征词处理方法、装置及存储介质
CN110245345A (zh) * 2018-03-08 2019-09-17 普天信息技术有限公司 适用于网络新词的分词处理方法及装置
CN110765271A (zh) * 2018-07-09 2020-02-07 株式会社理光 一种实体发现与实体链接的联合处理方法及装置
CN111813941A (zh) * 2020-07-23 2020-10-23 北京来也网络科技有限公司 结合rpa和ai的文本分类方法、装置、设备及介质
CN112000794A (zh) * 2020-07-30 2020-11-27 北京百度网讯科技有限公司 文本语料筛选方法、装置、电子设备及存储介质

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344396A (zh) * 2018-08-31 2019-02-15 阿里巴巴集团控股有限公司 文本识别方法、装置、及计算机设备
CN109492217B (zh) * 2018-10-11 2024-07-05 平安科技(深圳)有限公司 一种基于机器学习的分词方法及终端设备
CN109408818B (zh) * 2018-10-12 2023-04-07 平安科技(深圳)有限公司 新词识别方法、装置、计算机设备及存储介质
CN109472022B (zh) * 2018-10-15 2024-09-17 平安科技(深圳)有限公司 基于机器学习的新词识别方法及终端设备
CN109670170B (zh) * 2018-11-21 2023-04-07 东软集团股份有限公司 专业词汇挖掘方法、装置、可读存储介质及电子设备
CN111444710B (zh) * 2019-01-15 2023-04-18 阿里巴巴集团控股有限公司 分词方法及分词装置
CN110147435B (zh) * 2019-01-24 2023-08-22 腾讯科技(深圳)有限公司 对话生成方法、装置、设备及存储介质
CN111832310B (zh) * 2019-04-23 2024-04-16 北京嘀嘀无限科技发展有限公司 一种文本处理方法及装置
CN111859948B (zh) * 2019-04-28 2024-06-11 北京嘀嘀无限科技发展有限公司 语言识别、语言模型训练、字符预测方法及装置
CN110162751A (zh) * 2019-05-13 2019-08-23 百度在线网络技术(北京)有限公司 文本生成器训练方法和文本生成器训练系统
CN110705254B (zh) * 2019-09-27 2023-04-07 科大讯飞股份有限公司 文本断句方法、装置、电子设备和存储介质
CN112818210B (zh) * 2019-11-15 2024-06-21 上海连尚网络科技有限公司 用于推送信息的方法和设备
CN111259985B (zh) * 2020-02-19 2023-06-30 腾讯云计算(长沙)有限责任公司 基于业务安全的分类模型训练方法、装置和存储介质
CN111339753B (zh) * 2020-02-25 2023-06-16 北京林业大学 一种自适应中文新词识别方法与系统
CN111597822B (zh) * 2020-05-19 2024-03-08 北京奇艺世纪科技有限公司 一种对象名称识别方法及装置
CN112818686B (zh) * 2021-03-23 2023-10-31 北京百度网讯科技有限公司 领域短语挖掘方法、装置和电子设备
CN113591004A (zh) * 2021-08-04 2021-11-02 北京小米移动软件有限公司 游戏标签生成方法、装置、存储介质及电子设备
CN113780007A (zh) * 2021-10-22 2021-12-10 平安科技(深圳)有限公司 语料筛选方法、意图识别模型优化方法、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101004737A (zh) * 2007-01-24 2007-07-25 贵阳易特软件有限公司 基于关键词的个性化文档处理系统
CN101976233A (zh) * 2010-09-30 2011-02-16 北京新媒传信科技有限公司 基于序列模式的新词发现方法
CN102930055A (zh) * 2012-11-18 2013-02-13 浙江大学 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN102955771A (zh) * 2011-08-18 2013-03-06 华东师范大学 中文单字串模式和词缀模式的新词自动识别技术及系统
CN103413478A (zh) * 2013-07-09 2013-11-27 复旦大学 记忆单词智能学习方法与系统
CN103678282A (zh) * 2014-01-07 2014-03-26 苏州思必驰信息科技有限公司 一种分词方法及装置
WO2015135452A1 (en) * 2014-03-14 2015-09-17 Tencent Technology (Shenzhen) Company Limited Text information processing method and apparatus

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08161340A (ja) * 1994-12-12 1996-06-21 Ricoh Co Ltd 連語自動抽出装置
JP3748322B2 (ja) * 1997-10-29 2006-02-22 富士通株式会社 単語登録装置及び記録媒体
US20070078644A1 (en) * 2005-09-30 2007-04-05 Microsoft Corporation Detecting segmentation errors in an annotated corpus
US20090313017A1 (en) * 2006-07-07 2009-12-17 Satoshi Nakazawa Language model update device, language Model update method, and language model update program
JP4446313B2 (ja) * 2006-12-15 2010-04-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理用の辞書に登録するべき新規語句を検索する技術
CN100504851C (zh) * 2007-06-27 2009-06-24 腾讯科技(深圳)有限公司 一种中文分词方法及系统
CN101706807B (zh) * 2009-11-27 2011-06-01 清华大学 一种中文网页新词自动获取方法
CN102681981A (zh) * 2011-03-11 2012-09-19 富士通株式会社 自然语言词法分析方法、装置及分析器训练方法
CN102708147B (zh) * 2012-03-26 2015-02-18 北京新发智信科技有限责任公司 一种科技术语的新词识别方法
US9229924B2 (en) * 2012-08-24 2016-01-05 Microsoft Technology Licensing, Llc Word detection and domain dictionary recommendation
CN104102658B (zh) * 2013-04-09 2018-09-07 腾讯科技(深圳)有限公司 文本内容挖掘方法及装置
US9645998B1 (en) * 2016-06-12 2017-05-09 Apple Inc. Learning new words
US10460038B2 (en) * 2016-06-24 2019-10-29 Facebook, Inc. Target phrase classifier
TWI640877B (zh) * 2017-06-14 2018-11-11 財團法人資訊工業策進會 語意分析裝置、方法及其電腦程式產品

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101004737A (zh) * 2007-01-24 2007-07-25 贵阳易特软件有限公司 基于关键词的个性化文档处理系统
CN101976233A (zh) * 2010-09-30 2011-02-16 北京新媒传信科技有限公司 基于序列模式的新词发现方法
CN102955771A (zh) * 2011-08-18 2013-03-06 华东师范大学 中文单字串模式和词缀模式的新词自动识别技术及系统
CN102930055A (zh) * 2012-11-18 2013-02-13 浙江大学 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN103413478A (zh) * 2013-07-09 2013-11-27 复旦大学 记忆单词智能学习方法与系统
CN103678282A (zh) * 2014-01-07 2014-03-26 苏州思必驰信息科技有限公司 一种分词方法及装置
WO2015135452A1 (en) * 2014-03-14 2015-09-17 Tencent Technology (Shenzhen) Company Limited Text information processing method and apparatus

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GZDMCAOYC: "非主流自然语言处理——遗忘算法系列(二):大规模语料词库生成", 《HTTPS://BLOG.CSDN.NET/GZDMCAOYC/ARTICLE/DETAILS/50001801》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020120A (zh) * 2017-10-10 2019-07-16 腾讯科技(北京)有限公司 内容投放系统中的特征词处理方法、装置及存储介质
CN110020120B (zh) * 2017-10-10 2023-11-10 腾讯科技(北京)有限公司 内容投放系统中的特征词处理方法、装置及存储介质
CN110245345A (zh) * 2018-03-08 2019-09-17 普天信息技术有限公司 适用于网络新词的分词处理方法及装置
CN110765271A (zh) * 2018-07-09 2020-02-07 株式会社理光 一种实体发现与实体链接的联合处理方法及装置
CN110765271B (zh) * 2018-07-09 2024-02-09 株式会社理光 一种实体发现与实体链接的联合处理方法及装置
CN111813941A (zh) * 2020-07-23 2020-10-23 北京来也网络科技有限公司 结合rpa和ai的文本分类方法、装置、设备及介质
CN112000794A (zh) * 2020-07-30 2020-11-27 北京百度网讯科技有限公司 文本语料筛选方法、装置、电子设备及存储介质
CN112000794B (zh) * 2020-07-30 2023-08-22 北京百度网讯科技有限公司 文本语料筛选方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
US20180217979A1 (en) 2018-08-02
JP6594534B2 (ja) 2019-10-23
WO2017140221A1 (zh) 2017-08-24
US10496747B2 (en) 2019-12-03
JP2018536920A (ja) 2018-12-13
EP3418906A4 (en) 2019-09-04
CN107092588B (zh) 2022-09-09
EP3418906A1 (en) 2018-12-26

Similar Documents

Publication Publication Date Title
CN107092588A (zh) 一种文本信息处理方法、装置和系统
US10791074B2 (en) Information pushing method, apparatus, and system, and computer storage medium
CN104572889B (zh) 一种搜索词推荐方法、装置和系统
WO2021098490A1 (zh) 语种识别方法、装置、终端设备及计算机可读存储介质
JP2023512692A (ja) 作品の推奨方法及びサーバー
CN108664957B (zh) 车牌号码匹配方法及装置、字符信息匹配方法及装置
CN106710596A (zh) 回答语句确定方法及装置
CN104182488A (zh) 搜索方法、服务器及客户端
CN106446797A (zh) 图像聚类方法及装置
CN103455621B (zh) 一种物流运单号的解析方法、装置和系统
CN106649236B (zh) 修改提示的方法及装置
CN107742221A (zh) 一种推广信息的处理方法、装置和系统
CN104424278B (zh) 一种获取热点资讯的方法及装置
CN110427622B (zh) 语料标注的评估方法、装置及存储介质
CN109543014B (zh) 人机对话方法、装置、终端及服务器
CN104133832A (zh) 盗版应用的识别方法及装置
CN105005563A (zh) 一种摘要生成方法及装置
CN108073303A (zh) 一种输入方法、装置及电子设备
CN107436948A (zh) 文件搜索方法、装置及终端
CN110069769A (zh) 应用标签生成方法、装置及存储设备
CN108268438A (zh) 一种页面内容提取方法、装置以及客户端
CN107766361A (zh) 向目标用户推荐书籍的方法及装置
CN107885718A (zh) 语义确定方法及装置
CN110070389B (zh) 一种业务推广统计方法、装置及计算机可读存储介质
CN106060021B (zh) 一种电子邮件识别方法、装置和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant