CN109408794A - 一种频次词典建立方法、分词方法、服务器和客户端设备 - Google Patents
一种频次词典建立方法、分词方法、服务器和客户端设备 Download PDFInfo
- Publication number
- CN109408794A CN109408794A CN201710706164.XA CN201710706164A CN109408794A CN 109408794 A CN109408794 A CN 109408794A CN 201710706164 A CN201710706164 A CN 201710706164A CN 109408794 A CN109408794 A CN 109408794A
- Authority
- CN
- China
- Prior art keywords
- frequency
- cutting
- text
- slit
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 230000003542 behavioural effect Effects 0.000 claims abstract description 10
- 238000005520 cutting process Methods 0.000 claims description 249
- 230000011218 segmentation Effects 0.000 claims description 46
- 230000006399 behavior Effects 0.000 claims description 24
- 238000003860 storage Methods 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 17
- 206010028916 Neologism Diseases 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 6
- 230000001815 facial effect Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 6
- 239000000047 product Substances 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000011017 operating method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000005389 magnetism Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 229920001296 polysiloxane Polymers 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种频次词典建立方法、分词方法、服务器和客户端设备,其中,该频次词典建立方法,包括:获取搜索行为数据,其中,所述搜索行为数据包括:多个搜索词和基于各个搜索词返回的数据对象中用户所点击的对象名称;统计各搜索词和对应的所点击的对象名称的共用字符串,以及各共用字符串的频次;将统计出的多个共用字符串的频次,生成频次词典,其中,所述频次词典用于对待分词文本进行分词。利用本申请实施例提供的技术方案,解决了现有的分词方式中所存在无法有效划分新词,人工标注成本过高的技术问题,达到了简单高效实现分词的技术效果。
Description
技术领域
本申请属于互联网技术领域,尤其涉及一种频次词典建立方法、分词方法、服务器和客户端设备。
背景技术
随着电子商务的快速发展,人们越来越多地通过购物网站进行购物。在购物网站进行类目划分或者是进行目标对象匹配的时候,往往需要进行分词处理。例如:将待分词词段“国内专柜高档雪纺裙”,通过分词方法切分为:国内专柜/高档/雪纺裙。
目前,常用的分词方法主要有:基于词典匹配的分词方法和基于统计的机器学习的分词方法。
其中,基于词典匹配的分词方法,需要严重依赖分词词典,因此如果分词词典中不存在某个新词,那么就达不到很好的分词效果。基于统计的机器学习的分词方法需要人工大量标注语料,实现起来较为繁琐,工作人员需要耗费大量的时间和精力,且基于统计的机器学习的分词方法需要切分的文本和训练语料的领域是相关,否则分词精度很低。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本申请目的在于提供一种频次词典建立方法、分词方法、服务器和客户端设备,可达到准确高效进行电商平台分词的目的。
本申请提供一种频次词典建立方法、分词方法、服务器和客户端设备是这样实现的:
一种频次词典建立方法,包括:
获取搜索行为数据,其中,所述搜索行为数据包括:多个搜索词和基于各个搜索词返回的数据对象中用户所点击的对象名称;
统计各搜索词和对应的所点击的对应名称的共用字符串,以及各共用字符串的频次;
将统计出的多个共用字符串的频次,生成频次词典,其中,所述频次词典用于对待分词文本进行分词。
一种分词方法,包括:
提供频次词典,其中,所述频次词典中包括:多个词串,以及各个词串同时出现在搜索词和基于搜索词返回的数据对象中用户所点击的对象名称中的次数;
获取待切分文本;
通过所述频次词典中记载的待切分文本中各个分段词串的频次,确定对所述待切分文本的切分方案;
根据确定的切分方案对所述待切分文本进行切分。
一种分词方法,包括:
提供一频次词典,其中,所述频次词典中包括:多个词串,以及各个词串同时出现在搜索词和基于搜索词返回的数据对象中用户所点击的对象名称中的次数;
获取待切分文本;
获取将所述待切分文本切分为两段的所有可能切分方案;
根据所述频次词典中记载的各分段词串的频次,计算得到将所述待切分文本切分为两段的所有可能切分方案;
根据所述频次词典中记载的各分段词串的频次,计算得到将所述待切分文本切分为两段的所有可能切分方案中各个切分方案中两个分段词串的联合概率,以及所述待切分文本的概率;
在联合概率最大的切分方案的联合概率大于所述待切分文本的概率的情况下,将联合概率最大的切分方案作为确定的将所述待切分文本切分为两段的切分方案;
在联合概率最大的切分方案的联合概率不大于所述待切分文本的概率的情况下,不对所述待切分文本进行切分。
一种分词方法,所述方法包括:
获取搜索行为数据,其中,所述搜索行为数据包括:多个搜索词和基于各个搜索词返回的数据对象中用户所点击的对象名称;
统计各搜索词和对应的所点击的对象名称的共用字符串,以及各共用字符串的频次;
根据统计出的多个共用字符串的频次,对待切分文本进行分词。
一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
获取搜索行为数据,其中,所述搜索行为数据包括:多个搜索词和基于各个搜索词返回的数据对象中用户所点击的对象名称;
统计各搜索词和对应的所点击的对象名称的共用字符串,以及各共用字符串的频次;
将统计出的多个共用字符串的频次,生成频次词典,其中,所述频次词典用于对待分词文本进行分词。
一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时执行上述分词方法。
一种客户端设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时执行上述分词方法。
一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述频次词典的建立方法的步骤。
一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述分词方法的步骤。
本申请提供的频次词典建立方法、分词方法、服务器和客户端设备,通过用户搜索点击行为数据,统计得到各搜索词和基于各个搜索词返回的数据对象中用户所点击的对象名称的共用字符串,以及各共用字符串的频次,从而形成频次词典,因用户在搜索和点击的时候,是存在关联性的,因此,通过这种关联关系统计出的词频可以表征词串出现的频度,基于此进行分词,可以达到高效分词的目的,从而解决了现有的分词方式中所存在无法有效划分新词,人工标注成本过高的技术问题,达到了简单高效实现分词的技术效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的搜索词与对象名称的对应关系示意图;
图2是本申请提供的提取出搜索词与对象名称中的最长公共字符串的示意图;
图3是本申请提供的统计得到的部分字符串的频次示意图;
图4是本申请提供的建立语音字符串词典的方法流程示意图;
图5是本申请提供的分词方法示例示意图;
图6是本申请提供的频次词典的一种实施例的示意图;
图7是本申请提供的切分示例的一种示意图;
图8是本申请提供的切分示例的另一种示意图;
图9是本申请提供的计算机终端的一种模块结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
考虑到在电商领域,电商平台上每天都会产生很多用户行为记录产生。例如,用户输入某个搜索词之后,会产生一系列的产品作为搜索结果,如果用户对搜索结果的某个或者某些产品进行点击,以进行收藏、购买、增加至购物车等操作,那么就产生了用户点击行为。该行为可以表明用户对该产品是有兴趣的,也就表明该产品与用户输入的搜索词之间存在比较强的关联。因此,通过用户基于搜索结果的点击行为与搜索词本身,可以生成自然标注数据。
基于此,考虑到可以以用户的搜索词(query)和基于搜索词返回的数据对象中用户所点击的对象名称(Title)之间这种内在的关联性,作为分词的依据。
在本例中,提供了一种建立频次词典的方法,如图1所示,用户输入一个查询query之后,并点击了相关的对象,该查询query与对象名称title之间形成一种对应关系,可以将每个点击操作所对应的查询query和对象名称title形成一个Q-T对,图1中的“sk2神仙水”(查询query)和“官方直售sk2经典神仙水套装护肤精华露”(基于搜索词返回的数据对象中用户所点击的对象名称)形成一个Q-T对。通过对多个搜索词和基于搜索词反馈的数据对象中用户所点击的对象名称进行统计分析,那么可以形成多个Q-T对。进一步的,可以对多个Q-T对中各个Q-T进行统计,统计出每个Q和对应的T对中最长的共有字符串,然后统计提取出的最长共有字符串中各个字符串出现的次数,根据各个字符串出现的次数建立的频次词典,通过该频次词典可以进行分词。
举例而言,统计Q-T重合字符串的频次可以是如图2所示,Query-“耐克太空一号”和Title-“Nike耐克官方NIKEAIRFORCE1MID07太空一号男子运动鞋”的最长共有字符串为“太空一号”,那么将字符串“太空一号”的频次加1。
如果是对大量Q-T的重合字符串的频次进行统计,就可以形成频次词典。由于电商场景下每日有数以亿计的query日志,根据Q-T平行语料对,可以得到多个语义组块(即,字符串)出现的频次,一些常用的数据对象的名称会以较大的频次出现。
例如,如图3所示,为统计得到的部分字符串的频次示意图。该频次示意图可以采用表格的形式存储,也可以采用二维数组的形式存储,或者是其它的可以成对表征数据的存储方式存储,对此,本申请不作限定,只要是能对其中的频次进行更新,且可以进行有效查询即可。字符串出现频次的统计结果可以称为频次词典、语义字符串词典、或者是称为语义字符串集合等都可以,也可以采用其它的名称,对此不作限定。在下例中频次词典作为图1所示的统计得到的字符串频次的名称。
在一个实施方式中,考虑到有些共有字符串出现的频次是很低的,这些可以认为是不太有用的字符串,出现在频次词典中只会影响词典的准确性。因此,在生成频次词典的过程中,可以设置一个预设阈值,删除频次低于预设阈值的字符串,即删除频次较小的字符串,以生成频次词典。
为了建立语音字符串词典,可以如图4所示,采用如下方式进行:
S1:获取大量的用户行为数据。在获取了用户行为数据中,可以从用户行为数据中提取出Q-T对。上述用户行为数据中可以包括如图1所示的:用户输入的搜索词、基于搜索词返回的数据对象中用户所点击的对象名称。
其中,上述的用户行为数据可以是从电子商务平台的后台用于记录用户历史操作行为的数据中获取的,或者是从用户日志中获取的,也可以是从海量的用户实时访问数据中获取的。具体的获取方式本申请不作限定,可以根据实际需要选择。
S2:从用户行为数据中抽取Q-T对,如图4所示包括多个Q-T对:搜索词1(Q)--基于搜索词1返回的数据对象中用户所点击的对象名称1(T)、搜索词2(Q)--基于搜索词2返回的数据对象中用户所点击的对象名称1(T)……搜索词N(Q)--基于搜索词1返回的数据对象中用户所点击的对象名称N(T)。
其中,搜索词和对象名称可以是一对多的关系,也可以是多对一的关系,也可以是多对多的关系。每个Q-T对之间可以是相互独立的。
S3:对抽取的Q-T对进行分析统计。
即,可以是抽取每个Q-T对中的最长共有字符串。
举例而言,确定Q为“sk2神仙水”,T为“官方直售sk2经典神仙水套装护肤精华露”对其进行分析后可以得到该Q-T对的最长共有字符串为“神仙水”,那么输出的结果就是“神仙水”;确定Q为“耐克空军一号”,T为“Nike耐克官方NIKEAIRFORCE1MID07空军一号男子运动鞋”,对其进行分析后可以得到该Q-T对的最长共有字符串为“空军一号”,那么输出的结果就是“空军一号”。
S4:统计抽取得到的字符串以及各个字符串的频次,可以形成如图3所示的频次词典。例如,对从多个Q-T对中抽取的最长共有字符串出现的频次进行统计,可以得到字符串“咖啡厅”出现的次数为53431次,那么在频次词典中“咖啡厅”这个字符串对应的频次就是53431词。
在一个实施方式中,可以是一次获取大量的用户行为数据之后,集中统计一次,形成一个频次词典,以此词典作为后续分词的依据。也可以实时获取新的用户行为数据,然后通过新的用户行为数据对该频次词典进行进一步的更新,从而可以逐步扩大该频次词典的数据量,以及提高该频次词典的准确性。
通过上述方式所建立的频次词典与现有的分词词典相比,主要的区别在于,这种频次词典可以集成较为新的词汇,而原本的分词词典,需要进行定期的添加操作等才能出现新词,而本例中的频次词典可以第一时间集成有新词。且词典是基于用户行为所形成的自然标注形成的词典,省去了人工标注的成本,有效降低了词典建立的复杂性。
在建立了频次词典之后,可以基于频次词典进行分词。对于频次词典而言,频次越大,那么可以认为出现的概率越高。在进行分词的时候,就可以基于频次或者是概率对待切分文本进行分词处理。
在本例中,提供了一种分词方法,可以包括:
S1:获取待切分文本;
S2:获取所述待切分文本所有可能的切分方案;
S3:将各个切分方案所得到的分词片段的频次中,频次最高的切分方案作为确定的切分方案;
S4:按照确定的切分方案对所述待切分文件进行切分。
具体地,在上述S2至S3中,可以是每次都切分为两段。举例而言,就是每次仅切下去一刀,将待切分文本分为两个文本,然后再将这两个文本各自进行切分,如果一步步切分,得到最终的切分结果。当然,也可以是在知晓文本可以被切分为M个片段的情况下,例如,M取5,那么这个时候,可以是选择能将待切分文本切分为5个片段的所有切分方案,然后计算每个方案的概率值,具体的,在计算概率值的时候,可以是按照每个片段在频次词典中的频次确定的,这种概率可以是归一化的概率。例如,如图5所示,将“太空一号球鞋”切分为两个片段,那么相应的切分方案有:“太/空一号球鞋”、“太空/一号球鞋”、“太空一/号球鞋”、“太空一号/球鞋”、“太空一号球/鞋”。那么可以分别计算这几种方式的概率,可以表示为:
将“太空一号球鞋”切分为“太/空一号球鞋”的概率:P(太/空一号球鞋)=P(太)*P(空一号球鞋);
将“太空一号球鞋”切分为“太空/一号球鞋”的概率:P(太空/一号球鞋)=P(太空)*P(一号球鞋);
将“太空一号球鞋”切分为“太空一/号球鞋”的概率:P(太空一/号球鞋)=P(太空一)*P(号球鞋);
将“太空一号球鞋”切分为“太空一号/球鞋”的概率:P(太空一号/球鞋)=P(太空一号)*P(球鞋);
将“太空一号球鞋”切分为“太空一号球/鞋”的概率:P(太空一号球/鞋)=P(太空一号球)*P(鞋)。
其中,P(太)、P(空一号球鞋)、P(太空)、P(一号球鞋)、P(太空一)、P(号球鞋)、P(太空一号)、P(球鞋)、P(太空一号球)、P(鞋)分别表示“太”、“空一号球鞋”、“太空”、“一号球鞋”、“太空一”、“号球鞋”、“太空一号”、“球鞋”、“太空一号球”、“鞋”这些词串在频次词典中的出现的频次所对应的频率。
具体的,每个词串的频率可以是各个词串的频次占这些词串所有频次的比例,例如:查询频次词典后发现“球鞋”对应的频次是1000,“太”、“空一号球鞋”、“太空”、“一号球鞋”、“太空一”、“号球鞋”、“太空一号”、“球鞋”、“太空一号球”和“鞋”这些词串对应的频次一共是5000,那么P(球鞋)=1000/5000=0.2。
通过上述方式可以计算得到“太/空一号球鞋”、“太空/一号球鞋”、“太空一/号球鞋”、“太空一号/球鞋”、“太空一号球/鞋”各自的概率,最终确认出“太空/一号球鞋”这种切分方案所对应的片段相乘概率最高,那么就以“太空/一号球鞋”作为最终的切分方案。
即,在进行待切分文本切分的时候,假设文本T可以被切分为a、b、c等n个片段(其中,a、b、c都是频次词典中出现的具有一定频次的字串),那么在确定该文本的切分方案的时候,可以是设置每个切分中各片段的概率相乘,即,P(abc)=P(a)*P(b)*P(c),确定切分方案就是最大化该概率值P(abc)。
在一个实施方式中,在文本切分的时候,可以采用递归的方式进行切分。即,输入文本T之后,可以先确定出一个切分点对该文本进行切分,将该文本切分为两个片段:左片段和右片段。假设文本T的长度,即所含的字符数为n,那么将文本T切分为两个片段就一共有n-1种切分方案。然后再分别对左片段和右片段执行这种切分操作。在确定切分点的时候,就以上述计算联合概率的方式确定切分点。
然而,值得注意的是,在实现的时候,因为是采用频次词典作为分词的依据,需要用到各个分词片段的概率、频次都作为基础,而频次词典建立的时候显然是避开单字符的,单字符的统计没什么实际意义。因此,基于频次词典进行分词处理的时候,可以是排除出现单字的方案的。例如:将“太空一号球鞋”切分为两个片段,那么相应的切分方案就仅包括有:“太空/一号球鞋”、“太空一/号球鞋”、“太空一号/球鞋”从这几个中进行选取,而将“太空一号球/鞋”和“太空一号球/鞋”这种方案排除。
在进行逐层递归切分的时候,可以以切分后分词片段的联合概率小于切分前的词串的概率作为切分的终点,停止切分。例如:“空军一号男子篮球鞋”,在切分的时候,第一刀下去,即第一次切分的时候,可以得到:“空军一号/男子篮球鞋”。在进一步切分的时候,可以是对“空军一号”和“男子篮球鞋”分别进行切分。在切分的时候,为了避免对“空军一号”进行切分时出现单字,那么仅可以按照“空军/一号”进行切分,但是将切分后的联合概率P(空军)*P(一号)与切分前的概率P(空军一号)进行比对,可以确定出P(空军一号)更大一些,因此,不再对“空军一号”进行切分,而是以“空军一号”作为最终的分词结果。
下面以一个具体场景对上述分词方法进行说明,然而值得注意的是,该具体场景仅是为了更好地说明本申请,并不构成对本申请的不当限定。
如图6所示为统计所得的语义字符串及对应的频次和概率,其中的概率信息是通过归一化得到的概率值。即,通过每个字符串的频次除以所有字符串的总频次得到的。这些字符串的频率之后为1。然而,值得注意的是,图6中仅是一种示意性描述,并没有完全展示在切分过程中所涉及到的所有词串,在实际实现的时候,还有其它的词串以及对应的频次,例如:sk2、护肤等等。图6仅是一种示意性的描述,所实际用到的频次词典是整合了海量词串的频次的数据集合。
假设待切分片段为“国内专柜sk2神仙水护肤精华露”,共有15个字符,将其切成两个片段一共有14种切分方案。第一次切分的时候,遍历这14中切分方案只有确定合适的切分方案为:“国内专柜/sk2神仙水护肤精华露”。在这个过程中,可以求取P(国内专柜)和P(sk2神仙水护肤精华露)。“国内专柜sk2神仙水护肤精华露”切分为“国内专柜/sk2神仙水护肤精华露”之后,可以进一步确定如何对“国内专柜”和“sk2神仙水护肤精华露”进行切分。
其中,“国内专柜”这个片段有3种切分方案,分别为“国/内专柜”,“国内/专柜”,“国内专/柜”,由于“国/内专柜”和“国内专/柜”这两种切分方式都会出现单字,因此不考虑。对于“国内/专柜”,按照图6所示的频次词典,可以确定出P(国内专柜)>P(国内)*P(专柜),因此,不对“国内专柜”进行切分,保留“国内专柜”作为最终的切分结果。
对于“sk2神仙水护肤精华露”,按照图6所示的频次词典,确定最佳的切分方案为:sk2神仙水/护肤精华露。即,综合比较各种切分路径,根据频次词典确定出得分最高的切分结果可以如图7所示,为“国内专柜/sk2神仙水/护肤精华露”。
在一个实施方式中,如果所有切分后的结果都比切分前的得分高,那么可以进行进一步切分,最终得到如图8所示的分词结果:“国内/专柜/sk2/神仙水/护肤/精华露”。
上例所列举的分词方法,是以建立分词词典为依据进行的,在实际实现的时候,也可以不建立分词,而仅是根据搜索行为数据统计出多个共用字符串的频次,从而实现分词处理。
例如,在本例中,提供了一种分词方法,可以包括如下步骤:
S1:获取搜索行为数据,其中,所述搜索行为数据包括:多个搜索词和基于各个搜索词返回的数据对象中用户所点击的对象名称;
S2:统计各搜索词和对应的所点击的对象名称的共用字符串,以及各共用字符串的频次;
S3:根据统计出的多个共用字符串的频次,对待切分文本进行分词。
在进行分词的时候,可以是根据统计出的多个共用字符串的频次,确定将所述待切分文本分为两段的切分方案;确定基于分为两段后所得到的第一词段和第二词段各自再切分为两段的切分方案。
具体的,可以是获取将待切分文本切分为两个字段的所有可能切分方案,然后,根据统计出的多个共用字符串的频次,计算得到所有可能切分方案中各个切分方案中两个分段词串的频次之和,将频次之和最大的切分方案作为确定的对所述待切分文本进行分词的切分方案。或者是,获取将所述待切分文本切分为两个字段的所有可能切分方案;根据所述统计出的多个共用字符串的频次,计算得到所有可能切分方案中各个切分方案中两个分段词串的频次的联合概率,将联合概率最大的切分方案作为确定的对所述待切分文本进行分词的切分方案。
举例而言,在实现的时候,确定将第一词段切分为两段的切分方案可以包括:获取将第一词段切分为两段的所有可能切分方案;根据所述频次词典中记载的各分段词串的频次,计算得到将所述第一词段切分为两段的所有可能切分方案;根据所述频次词典中记载的各分段词串的频次,计算得到将所述第一词段切分为两段的所有可能切分方案中各个切分方案中两个分段词串的频次之和,以及所述第一词段的频次;在频次之和最大的切分方案的频次大于所述第一词段的频次的情况下,将频次之后最大的切分方案作为确定的将所述第一词段切分为两段的切分方案;在频次之和最大的切分方案的频次不大于所述第一词段的频次的情况下,不对所述第一词段进行切分。
在实现的时候,确定将第一词段切分为两段的切分方案还可以包括:获取将所述第一词段切分为两段的所有可能切分方案;根据所述频次词典中记载的各分段词串的频次,计算得到将所述第一词段切分为两段的所有可能切分方案;根据所述频次词典中记载的各分段词串的频次,计算得到将所述第一词段切分为两段的所有可能切分方案中各个切分方案中两个分段词串的联合概率,以及所述第一词段的概率;在联合概率最大的切分方案的联合概率大于所述第一词段的概率的情况下,将联合概率最大的切分方案作为确定的将所述第一词段切分为两段的切分方案;在联合概率最大的切分方案的联合概率不大于所述第一词段的概率的情况下,不对所述第一词段进行切分。
本申请上述实施例所提供的频次词典建立实施例可以在服务器、服务器集群、云端服务器上执行,上述的分词方法可以在服务器、移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图9是本发明实施例的一种分词方法的计算机终端的硬件结构框图。如图9所示,计算机终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。本领域普通技术人员可以理解,图9所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图9中所示更多或者更少的组件,或者具有与图9所示不同的配置。
其中,上述移动终端可以是客户操作使用的终端设备或者软件。具体的,客户端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表或者其它可穿戴设备等终端设备。当然,客户端也可以是能运行于上述终端设备中的软件。例如:手机淘宝、支付宝或者浏览器等应用软件。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的短信息的发送方法对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的短信息的发送方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输模块106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
在一个实施方式中,存储器104可以提供一频次词典,其中,该频次词典中包括:多个词串,以及各个词串同时出现在搜索词和基于搜索词返回的数据对象中用户所点击的对象名称中的次数。
处理器102可以执行如下步骤:
S1:获取待切分文本;
S2:通过所述频次词典中记载的待切分文本中各个分段词串的频次,确定对所述待切分文本的切分方案;
S3:根据确定的切分方案对所述待切分文本进行切分。
在进行切分的时候,可以是每次切分为两个片段,直至切分到满足要求的词串粒度,例如,可以是先确定将待切分文本分为两段的切分方案;然后,再确定基于分为两段后所得到的第一词段和第二词段各自再切分为两段的切分方案。即,可以逐级进行切分,采用递归切分的方式,但是保证每一次的切分都是最优的。
在一个实施方式中,确定将所述待切分文本分为两段的切分方案,可以包括:获取将所述待切分文本切分为两个字段的所有可能切分方案;根据所述频次词典中记载的各分段词串的频次,计算得到所有可能切分方案中各个切分方案中两个分段词串的频次之和,将频次之和最大的切分方案作为确定的对所述待切分文本进行分词的切分方案。
或者是,在一个实施方式中,确定将所述待切分文本分为两段的切分方案包括:获取将所述待切分文本切分为两个字段的所有可能切分方案;根据所述频次词典中记载的各分段词串的频次,计算得到所有可能切分方案中各个切分方案中两个分段词串的频次的联合概率,将联合概率最大的切分方案作为确定的对所述待切分文本进行分词的切分方案。
即,可以采用频次累加和的方式确定切分为两段时的最优方案,也可以是通过求联合概率的方式确定切分为两段时的最优方案。
在一个实施方式中,考虑到在实现的时候,当频次字典最够大和全面的时候,几乎所有的切分文本中的字段字典中都是有的。但是也不排除会有些字串没有,为了解决这种情况下,可以对有些没有的字串赋值一个很小的概率值,且字串越长,赋予的概率值就越小。
为了使得在切分的过程中,可以确定出最终的切分粒度,可以在切分的时候,确定某个切分片段是否还需要继续被切分。
例如,确定将所述第一词段切分为两段的切分方案,可以包括:
获取将所述第一词段切分为两段的所有可能切分方案;
根据所述频次词典中记载的各分段词串的频次,计算得到将所述第一词段切分为两段的所有可能切分方案;
根据所述频次词典中记载的各分段词串的频次,计算得到将所述第一词段切分为两段的所有可能切分方案中各个切分方案中两个分段词串的频次之和,以及所述第一词段的频次;
在频次之和最大的切分方案的频次大于所述第一词段的频次的情况下,将频次之后最大的切分方案作为确定的将所述第一词段切分为两段的切分方案;
在频次之和最大的切分方案的频次不大于所述第一词段的频次的情况下,不对所述第一词段进行切分。
确定将第一词段切分为两段的切分方案,还可以是包括:
获取将所述第一词段切分为两段的所有可能切分方案;
根据所述频次词典中记载的各分段词串的频次,计算得到将所述第一词段切分为两段的所有可能切分方案;
根据所述频次词典中记载的各分段词串的频次,计算得到将所述第一词段切分为两段的所有可能切分方案中各个切分方案中两个分段词串的联合概率,以及所述第一词段的概率;
在联合概率最大的切分方案的联合概率大于所述第一词段的概率的情况下,将联合概率最大的切分方案作为确定的将所述第一词段切分为两段的切分方案;
在联合概率最大的切分方案的联合概率不大于所述第一词段的概率的情况下,不对所述第一词段进行切分。
即,在切分的过程中,以切分后的效果还不如切分前的时候,停止进行切分。
在一个实施方式中,待切分文本可以包括但不限于以下至少之一:搜索词、数据对象。较优的,以较短的文本作为待切分文本。其中,数据对象可以是文章标题、产品标题等等。
本申请提供的频次词典建立方法、分词方法、服务器和客户端设备,通过用户搜索点击行为数据,统计得到各搜索词和对应的所点击的对象名称的共用字符串,以及各共用字符串的频次,从而形成频次词典,因用户在搜索和点击的时候,是存在关联性的,因此,通过这种关联关系统计出的词频可以表征词串出现的频度,基于此进行分词,可以达到高效分词的目的,从而解决了现有的分词方式中所存在无法有效划分新词,人工标注成本过高的技术问题,达到了简单高效实现分词的技术效果。
虽然本申请提供了上述实施例或附图所示的方法操作步骤或装置结构,但基于常规或者无需创造性的劳动在所述方法或装置中可以包括更多或者更少的操作步骤或模块单元。在逻辑性上不存在必要因果关系的步骤或结构中,这些步骤的执行顺序或装置的模块结构不限于本申请实施例描述及附图所示的执行顺序或模块结构。所述的方法或模块结构的在实际中的装置或终端产品应用时,可以按照实施例或者附图所示的方法或模块结构连接进行顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至分布式处理环境)。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
上述实施例阐明的装置或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。当然,也可以将实现某功能的模块由多个子模块或子单元组合实现。
本申请中所述的方法、装置或模块可以以计算机可读程序代码方式实现控制器按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本申请所述装置中的部分模块可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的硬件的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,也可以通过数据迁移的实施过程中体现出来。该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本申请的全部或者部分可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、移动通信终端、多处理器系统、基于微处理器的系统、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
虽然通过实施例描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。
Claims (21)
1.一种频次词典建立方法,其特征在于,所述方法包括:
获取搜索行为数据,其中,所述搜索行为数据包括:多个搜索词和基于各个搜索词返回的数据对象中用户所点击的对象名称;
统计各搜索词和对应的所点击的对象名称的共用字符串,以及各共用字符串的频次;
将统计出的多个共用字符串的频次,生成频次词典,其中,所述频次词典用于对待分词文本进行分词。
2.根据权利要求1所述的方法,其特征在于,将统计出的多个共用字符串的频次,生成频次词典,包括:
从所述多个共用字符串中删除频次低于预设阈值的共用字符串;
基于删除频次低于预设阈值的共用字符串后剩余的共用字符串,以及各共用字符串的频次,生成所述频次词典。
3.根据权利要求1所述的方法,其特征在于,在生成频次词典之后,所述方法还包括:
实时获取电商平台的搜索行为数据;
根据实时获取的电商平台的搜索行为数据,对所述频次词典进行更新。
4.一种分词方法,其特征在于,包括:
提供频次词典,其中,所述频次词典中包括:多个词串,以及各个词串同时出现在搜索词和基于搜索词返回的数据对象中用户所点击的对象名称中的次数;
获取待切分文本;
通过所述频次词典中记载的待切分文本中各个分段词串的频次,确定对所述待切分文本的切分方案;
根据确定的切分方案对所述待切分文本进行切分。
5.根据权利要求4所述的方法,其特征在于,确定对所述待切分文本的切分方案,包括:
确定将所述待切分文本分为两段的切分方案;
确定基于分为两段后所得到的第一词段和第二词段各自再切分为两段的切分方案。
6.根据权利要求5所述的方法,其特征在于,确定将所述待切分文本分为两段的切分方案包括:
获取将所述待切分文本切分为两个字段的所有可能切分方案;
根据所述频次词典中记载的各分段词串的频次,计算得到所有可能切分方案中各个切分方案中两个分段词串的频次之和,将频次之和最大的切分方案作为确定的对所述待切分文本进行分词的切分方案。
7.根据权利要求5所述的方法,其特征在于,确定将所述待切分文本分为两段的切分方案包括:
获取将所述待切分文本切分为两个字段的所有可能切分方案;
根据所述频次词典中记载的各分段词串的频次,计算得到所有可能切分方案中各个切分方案中两个分段词串的频次的联合概率,将联合概率最大的切分方案作为确定的对所述待切分文本进行分词的切分方案。
8.根据权利要求5所述的方法,其特征在于,确定将所述第一词段切分为两段的切分方案,包括:
获取将所述第一词段切分为两段的所有可能切分方案;
根据所述频次词典中记载的各分段词串的频次,计算得到将所述第一词段切分为两段的所有可能切分方案;
根据所述频次词典中记载的各分段词串的频次,计算得到将所述第一词段切分为两段的所有可能切分方案中各个切分方案中两个分段词串的频次之和,以及所述第一词段的频次;
在频次之和最大的切分方案的频次大于所述第一词段的频次的情况下,将频次之后最大的切分方案作为确定的将所述第一词段切分为两段的切分方案;
在频次之和最大的切分方案的频次不大于所述第一词段的频次的情况下,不对所述第一词段进行切分。
9.根据权利要求5所述的方法,其特征在于,确定将所述第一词段切分为两段的切分方案,包括:
获取将所述第一词段切分为两段的所有可能切分方案;
根据所述频次词典中记载的各分段词串的频次,计算得到将所述第一词段切分为两段的所有可能切分方案;
根据所述频次词典中记载的各分段词串的频次,计算得到将所述第一词段切分为两段的所有可能切分方案中各个切分方案中两个分段词串的联合概率,以及所述第一词段的概率;
在联合概率最大的切分方案的联合概率大于所述第一词段的概率的情况下,将联合概率最大的切分方案作为确定的将所述第一词段切分为两段的切分方案;
在联合概率最大的切分方案的联合概率不大于所述第一词段的概率的情况下,不对所述第一词段进行切分。
10.根据权利要求4至9中任一项所述的方法,其特征在于,所述待切分文本包括以下至少之一:搜索词、对象名称。
11.一种分词方法,其特征在于,所述方法包括:
获取搜索行为数据,其中,所述搜索行为数据包括:多个搜索词和基于各个搜索词返回的数据对象中用户所点击的对象名称;
统计各搜索词和对应的所点击的对象名称的共用字符串,以及各共用字符串的频次;
根据统计出的多个共用字符串的频次,对待切分文本进行分词。
12.根据权利要求11所述的方法,其特征在于,根据统计出的多个共用字符串的频次,对待切分文本进行分词,包括:
根据统计出的多个共用字符串的频次,确定将所述待切分文本分为两段的切分方案;
确定基于分为两段后所得到的第一词段和第二词段各自再切分为两段的切分方案。
13.根据权利要求12所述的方法,其特征在于,确定将所述待切分文本分为两段的切分方案包括:
获取将所述待切分文本切分为两个字段的所有可能切分方案;
根据统计出的多个共用字符串的频次,计算得到所有可能切分方案中各个切分方案中两个分段词串的频次之和,将频次之和最大的切分方案作为确定的对所述待切分文本进行分词的切分方案。
14.根据权利要求12所述的方法,其特征在于,确定将所述待切分文本分为两段的切分方案包括:
获取将所述待切分文本切分为两个字段的所有可能切分方案;
根据所述统计出的多个共用字符串的频次,计算得到所有可能切分方案中各个切分方案中两个分段词串的频次的联合概率,将联合概率最大的切分方案作为确定的对所述待切分文本进行分词的切分方案。
15.一种分词方法,其特征在于,包括:
提供一频次词典,其中,所述频次词典中包括:多个词串,以及各个词串同时出现在搜索词和基于搜索词返回的数据对象中用户所点击的对象名称中的次数;
获取待切分文本;
获取将所述待切分文本切分为两段的所有可能切分方案;
根据所述频次词典中记载的各分段词串的频次,计算得到将所述待切分文本切分为两段的所有可能切分方案;
根据所述频次词典中记载的各分段词串的频次,计算得到将所述待切分文本切分为两段的所有可能切分方案中各个切分方案中两个分段词串的联合概率,以及所述待切分文本的概率;
在联合概率最大的切分方案的联合概率大于所述待切分文本的概率的情况下,将联合概率最大的切分方案作为确定的将所述待切分文本切分为两段的切分方案;
在联合概率最大的切分方案的联合概率不大于所述待切分文本的概率的情况下,不对所述待切分文本进行切分。
16.一种服务器,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现:
获取搜索行为数据,其中,所述搜索行为数据包括:多个搜索词和基于各个搜索词返回的数据对象中用户所点击的对象名称;
统计各搜索词和对应的所点击的产品名称的共用字符串,以及各共用字符串的频次;
将统计出的多个共用字符串的频次,生成频次词典,其中,所述频次词典用于对待分词文本进行分词。
17.一种服务器,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时执行权利要求4至10中任一项所述方法的步骤。
18.一种客户端设备,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时执行权利要求4至10中任一项所述方法的步骤。
19.一种客户端设备,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时执行权利要求11所述方法的步骤。
20.一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现权利要求1至3中任一项所述方法的步骤。
21.一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现权利要求4至10中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710706164.XA CN109408794A (zh) | 2017-08-17 | 2017-08-17 | 一种频次词典建立方法、分词方法、服务器和客户端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710706164.XA CN109408794A (zh) | 2017-08-17 | 2017-08-17 | 一种频次词典建立方法、分词方法、服务器和客户端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109408794A true CN109408794A (zh) | 2019-03-01 |
Family
ID=65454931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710706164.XA Pending CN109408794A (zh) | 2017-08-17 | 2017-08-17 | 一种频次词典建立方法、分词方法、服务器和客户端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109408794A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541057A (zh) * | 2019-09-04 | 2021-03-23 | 上海晶赞融宣科技有限公司 | 分布式新词发现方法、装置、计算机设备和存储介质 |
CN115687579A (zh) * | 2022-09-22 | 2023-02-03 | 广州视嵘信息技术有限公司 | 文档标签生成及匹配方法、装置和计算机设备 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040210434A1 (en) * | 1999-11-05 | 2004-10-21 | Microsoft Corporation | System and iterative method for lexicon, segmentation and language model joint optimization |
CN1912872A (zh) * | 2006-07-25 | 2007-02-14 | 北京搜狗科技发展有限公司 | 一种提取新词的方法和系统 |
US20070219783A1 (en) * | 2006-03-16 | 2007-09-20 | Oki Electric Industry Co., Ltd. | Bilingual dictionary creating apparatus, bilingual dictionary creating method and computer program |
WO2009003328A1 (fr) * | 2007-06-29 | 2009-01-08 | Zte Corporation | Système et procédé de requête de données |
US8051096B1 (en) * | 2004-09-30 | 2011-11-01 | Google Inc. | Methods and systems for augmenting a token lexicon |
CN102710795A (zh) * | 2012-06-20 | 2012-10-03 | 奇智软件(北京)有限公司 | 热点聚合方法及装置 |
CN102929870A (zh) * | 2011-08-05 | 2013-02-13 | 北京百度网讯科技有限公司 | 一种建立分词模型的方法、分词的方法及其装置 |
CN103678282A (zh) * | 2014-01-07 | 2014-03-26 | 苏州思必驰信息科技有限公司 | 一种分词方法及装置 |
CN103778138A (zh) * | 2012-10-19 | 2014-05-07 | 深圳市世纪光速信息技术有限公司 | 一种连续字符串的切分方法和装置 |
CN104899322A (zh) * | 2015-06-18 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 搜索引擎及其实现方法 |
CN105488209A (zh) * | 2015-12-11 | 2016-04-13 | 北京奇虎科技有限公司 | 一种词权重的分析方法及装置 |
CN106708798A (zh) * | 2015-11-16 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 一种字符串切分方法及装置 |
-
2017
- 2017-08-17 CN CN201710706164.XA patent/CN109408794A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040210434A1 (en) * | 1999-11-05 | 2004-10-21 | Microsoft Corporation | System and iterative method for lexicon, segmentation and language model joint optimization |
US8051096B1 (en) * | 2004-09-30 | 2011-11-01 | Google Inc. | Methods and systems for augmenting a token lexicon |
US20070219783A1 (en) * | 2006-03-16 | 2007-09-20 | Oki Electric Industry Co., Ltd. | Bilingual dictionary creating apparatus, bilingual dictionary creating method and computer program |
CN1912872A (zh) * | 2006-07-25 | 2007-02-14 | 北京搜狗科技发展有限公司 | 一种提取新词的方法和系统 |
WO2009003328A1 (fr) * | 2007-06-29 | 2009-01-08 | Zte Corporation | Système et procédé de requête de données |
CN102929870A (zh) * | 2011-08-05 | 2013-02-13 | 北京百度网讯科技有限公司 | 一种建立分词模型的方法、分词的方法及其装置 |
CN102710795A (zh) * | 2012-06-20 | 2012-10-03 | 奇智软件(北京)有限公司 | 热点聚合方法及装置 |
CN103778138A (zh) * | 2012-10-19 | 2014-05-07 | 深圳市世纪光速信息技术有限公司 | 一种连续字符串的切分方法和装置 |
CN103678282A (zh) * | 2014-01-07 | 2014-03-26 | 苏州思必驰信息科技有限公司 | 一种分词方法及装置 |
CN104899322A (zh) * | 2015-06-18 | 2015-09-09 | 百度在线网络技术(北京)有限公司 | 搜索引擎及其实现方法 |
CN106708798A (zh) * | 2015-11-16 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 一种字符串切分方法及装置 |
CN105488209A (zh) * | 2015-12-11 | 2016-04-13 | 北京奇虎科技有限公司 | 一种词权重的分析方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541057A (zh) * | 2019-09-04 | 2021-03-23 | 上海晶赞融宣科技有限公司 | 分布式新词发现方法、装置、计算机设备和存储介质 |
CN115687579A (zh) * | 2022-09-22 | 2023-02-03 | 广州视嵘信息技术有限公司 | 文档标签生成及匹配方法、装置和计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113590645B (zh) | 搜索方法、装置、电子设备及存储介质 | |
CN109408811B (zh) | 一种数据处理方法及服务器 | |
CN105808696B (zh) | 一种基于全局和局部特征的跨在线社交网络用户匹配方法 | |
US11907659B2 (en) | Item recall method and system, electronic device and readable storage medium | |
CN103136228A (zh) | 一种图片搜索方法以及图片搜索装置 | |
CN107391509B (zh) | 标签推荐方法及装置 | |
CN112395867B (zh) | 同义词挖掘方法、装置、存储介质及计算机设备 | |
CN107943792B (zh) | 一种语句分析方法、装置及终端设备、存储介质 | |
CN104484339A (zh) | 一种相关实体推荐方法和系统 | |
CN104636371A (zh) | 信息推荐方法及设备 | |
KR101757900B1 (ko) | 지식 베이스의 구축 방법 및 장치 | |
WO2018058118A1 (en) | Method, apparatus and client of processing information recommendation | |
CN106980639B (zh) | 短文本数据聚合系统及方法 | |
US10339165B2 (en) | System, method, and non-transitory computer-readable storage media for generating synonyms of a search query | |
CN113032673A (zh) | 资源的获取方法、装置、计算机设备及存储介质 | |
CN106484889A (zh) | 网络资源的泛搜索方法和装置 | |
CN106649732B (zh) | 一种信息推送方法及装置 | |
CN109408794A (zh) | 一种频次词典建立方法、分词方法、服务器和客户端设备 | |
CN106951511A (zh) | 一种文本聚类方法及装置 | |
CN114490923A (zh) | 相似文本匹配模型的训练方法、装置、设备及存储介质 | |
CN117971698A (zh) | 测试用例生成方法、装置、电子设备和存储介质 | |
CN111429200B (zh) | 一种内容关联方法及装置、存储介质、计算机设备 | |
CN105608183A (zh) | 一种提供聚合类型回答的方法和装置 | |
Kim et al. | Customer preference analysis based on SNS data | |
CN104462439A (zh) | 事件的识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190301 |