CN111966791B - 海关数据产品词的提取方法及检索方法 - Google Patents

海关数据产品词的提取方法及检索方法 Download PDF

Info

Publication number
CN111966791B
CN111966791B CN202010917197.0A CN202010917197A CN111966791B CN 111966791 B CN111966791 B CN 111966791B CN 202010917197 A CN202010917197 A CN 202010917197A CN 111966791 B CN111966791 B CN 111966791B
Authority
CN
China
Prior art keywords
word
words
product
customs
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010917197.0A
Other languages
English (en)
Other versions
CN111966791A (zh
Inventor
车进
曹彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Xiaoman Technology Co ltd
Original Assignee
Shenzhen Xiaoman Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xiaoman Technology Co ltd filed Critical Shenzhen Xiaoman Technology Co ltd
Priority to CN202010917197.0A priority Critical patent/CN111966791B/zh
Publication of CN111966791A publication Critical patent/CN111966791A/zh
Application granted granted Critical
Publication of CN111966791B publication Critical patent/CN111966791B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种海关数据产品词的提取方法及检索方法。其中提取方法首先将海关描述文本中的多余部分清理干净,转化成较好处理的形式;接着启发式的找到海关描述文本中的分割词,将产品词和描述部分进行分割;再将文本中的量词和日期正则替换为空格符或删除;然后通过语法规则删除文本中的描述部分,或使用互信息和左右信息熵对数据进行产品词组的提取,得到单词数≤5产品词组作为产品词加入词库。检索方法是首先对待检索文本进行分词,然后采用bit map或hash map结构在构建的词库中进行检索。本发明结合了语法结构、互信息、字符信息和海关数据特有的结构信息,可以充分结合各种信息的优势,准确提取和检索出产品词。

Description

海关数据产品词的提取方法及检索方法
技术领域
本发明属于通信技术领域,尤其涉及一种海关数据产品词的提取方法及检索方法。
背景技术
海关数据和快递数据中一般必须包含对所运物品的描述,这些描述是对具体产品的描述,带有大量的产品词信息,如产品名称、产品属性、生产商信息、产品功能及广告词等。因此,对产品词进行清洗利用的可行性比较大。当我们拥有一个完整的产品词库时,我们使用它能够快速对已有文本数据进行检索,增加文本数据的利用率和检索效率。但是,由于这种产品词包含大量非结构化词句,导致其关键词的提取较难,很难有合适的算法对其进行有效提取。
传统的产品词词库通常是基于人工录入和网络收集的,需要大量成本维护,同时并不能保证实时性。目前产品词的提取还存在以下问题:1.人工录入时手写的单词容易存在错词的情况;2.词句之间的分割时有错误的现象;3.产品词中经常会包含对产品的性能、品质等的描述语句,此类描述语句中包含缩略词、数字、停用词以及符号等,容易造成分词出来的结果效果不佳。
因此,急需提供一种产品词的提取方法,从而快速准确的构建产品词词库,并为产品词的检索提供基础数据。
发明内容
针对上述现有技术存在的缺陷,本发明的目的在于提供一种海关数据产品词的提取方法,结合语法结构、互信息、字符信息和海关数据特有的结构信息等,快速准确的提取出产品词。
为实现上述目的,本发明采用以下技术方案实现:
一种海关数据产品词的提取方法,包括以下步骤:
S1.首先对海关描述文本进行格式统一化处理,然后将连词符以外的特殊符号清洗删除,并规范化单词间隔;
S2.对海关描述文本中的连词符做如下处理:将连接有数字的连词符组成的字符串替换为空格符;将前后分别连接一个或两个字符的字符串删除;
S3.然后启发式的找到海关描述文本中的分割词,将海关描述文本中的产品词和描述部分进行分割;接着将海关描述文本中的量词和日期正则替换为空格符或删除;
S4.使用步骤S3所述的分割词将海关描述文本分割为若干语句,通过语法规则删除所述海关描述文本中的描述部分,将单词数≤5的产品词组作为产品词加入词库;
或者使用互信息和左右信息熵对经步骤S2处理后的海关描述文本进行产品词组的提取,根据提取结果的抽查,不断调整互信息和左右信息熵的阈值,将抽取到的单词数≤5产品词组保留下来作为产品词加入词库。
作为本发明的进一步改进,在步骤S1中,所述特殊符号包括但不限于为划线、单引号、双引号、省略号、中的一种或多种。
作为本发明的进一步改进,在步骤S3中,所述分割词包括字符个数大于20的字符串和字符个数≤3且频率很低的字符串。
作为本发明的进一步改进,在步骤S3中,所述频率很低的字符串通过以下方法确定:统计所有字符串,计算每一个字符串出现的频率,频率低于阈值的字符串即为频率很低的字符串。
作为本发明的进一步改进,在步骤S4中,所述语法规则包括:删除for,used,use,only,ho,and之后的所有字符串;
删除首尾单词分别为以下字符的字符串:
start_str=['ft','vi','ab','only','is','part','parts','of','with','al-gt','on'];
end_str=['br','au','tro','ea','the','vi','of','not','bj','nut-','pro-et','sf','iii','all','perc','and','f','to'];
删除字符串开头或结尾为以下字符的字符串:
single_str=['old','input','inch','nan','big','mic','de','pre','in','parts','part','felt','not','hot','ft','ab','ms','to']。
作为本发明的进一步改进,在步骤S4中,所述互信息的计算公式如下:
式中,X和Y表示两个相邻的词,P(X,Y)表示X和Y相邻,且X出现在Y前面的概率,P(X)表示X出现的概率;
所述左右信息熵的计算公式如下:
式中,EL(W)和ER(W)分别表示左熵和右熵,W表示产品词,A表示W左边出现的所有词的集合,B表示W右边出现的所有词的集合。
作为本发明的进一步改进,步骤S4中所述词库对所述产品词采用hash map结构进行存储,且每一个所述产品词的第一个词为key,所述产品词的整体为hash结构的value。
一种海关数据产品词的检索方法,包括以下步骤:
a1.首先对待检索文本进行分词,构建一个bitmap,以0为初始值;
b1.然后在以上所述的词库中遍历所述待检索文本中的每一个单词,如果词库中包含所述待检索文本中的单词,则将该单词对应的初始值0替换为1;
c1.最后将bitmap中1的位置拼接起来,得到融合之后的产品词,即为检索目标。
一种海关数据产品词的检索方法,包括以下步骤:
a2.首先对待检索文本进行分词;
b2.然后将以上所述的词库减小为key仅为步骤a2所述的待检索文本中的每个单词的hash map;
c2.最后使用滑动窗口在所述词库中对所述待检索文本进行检索,得到所有潜在的产品词,并且依次判断是否在hash结构中,如果在,则即得到检索目标。
作为本发明的进一步改进,在步骤c2中,所述滑动窗口的元素个数≤5。
有益效果
与现有技术相比,本发明提供的海关数据产品词的提取方法及检索方法具有如下有益效果:
(1)本发明提供的海关数据产品词的提取方法,针对海关描述文本特有的结构信息,对文本中的特殊字符进行删除或替换,其中,对海关描述文本中的连词符做如下处理:将连接有数字的连词符组成的字符串替换为空格符;将前后分别连接一个或两个字符的字符串删除,以简化文本的组成,从而降低产品词提取难度,提高提取速率和准确率。然后选用字符个数≤3频率很低的字符串和字符个数大于20的字符串作为分割词,对文本进行分割,并根据针对海关描述文本的语法结构,通过语法规则删除描述部分,或使用互信息和左右信息熵对数据进行产品词组的提取,得到单词数≤5产品词组作为产品词加入词库。此种提取方式,针对性更强,因此准确率更高,同时结合了语法结构、互信息、字符信息、海关数据特有的结构信息,可以很准确完整的在海关描述中找到产品词。
(2)本发明提供的海关数据产品词的提取方法,选用字符个数大于20的字符串和字符个数≤3且频率很低的字符串作为分割词,对海关描述文本中的产品词和描述部分进行分割。此种分割词的选用合理,且较适用于海关描述文本,因此分割准确度高。使用互信息和左右信息熵提取产品词,根据提取结果的抽查,不断调整互信息和左右信息熵的阈值,最终将得到单词数≤5产品词组作为产品词加入词库,而且使用hash map结构对产品词进行存储。此种方法得到的词库更有利于词库的更新和管理,由于产品词的单词数小于等于5,因此能够提高后续检索准确度和效率。
(3)本发明提供的海关数据产品词的检索方法,首先对待检索文本进行分词,然后采用bit map或hash map结构在构建的词库中进行检索,由于采用了以上所述词库,因此检索准确度得到保证。采用hash map结构,能够解决检索速度过慢的问题。
具体实施方式
以下将对本发明各实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例;基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
本发明提供了一种海关数据产品词的提取方法,包括以下步骤:
S1.首先对海关描述文本进行格式统一化处理,然后将连词符以外的特殊符号清洗删除,并规范化单词间隔。其中,所述特殊符号包括但不限于为长划线“—”、短划线“–”、单引号“‘’”、双引号““””、省略号“…”、 中的一种或多种。即经过步骤S1处理后的海关描述文本应具有统一的格式,不包含除连词符以外的特殊符号(即除了连词符以外,基本只包含由英文字符组成的单词字符串),且每个单词字符串的间隔相同。
S2.对海关描述文本中的连词符做如下处理:将连接有数字的连词符组成的字符串替换为空格符;将前后分别连接一个或两个字符的字符串删除。
例如将p-no这种一个字符加上连词符号连接一个或两个字符的字符串删除;将no-p这种一个字符或两个字符加上连词符号连接一个的字符串删除。
S3.然后启发式的找到海关描述文本中的分割词,将海关描述文本中的产品词和描述部分进行分割;所述分割词包括字符个数大于20的字符串和字符个数≤3且频率很低的字符串。
其中,所述频率很低的字符串通过以下方法确定:统计所有字符串,计算每一个字符串出现的频率,频率低于阈值(如设置为下10分位数)的字符串即为频率很低的字符串。
接着将海关描述文本中的量词和日期正则替换为空格符或删除;在海关描述文本的开头或结尾经常出现一些数量和日期的表示,由于这部分数据表达的不规范,可通过不断查找一些特定的量词来分析,多次正则替换这些量词和日期的表达为空或删除。
S4.然后使用步骤S3所述的分割词将海关描述文本分割为若干语句,通过语法规则删除所述海关描述文本中的描述部分,得到单词数≤5的产品词组作为产品词加入词库;
其中,所述语法规则包括:删除for,used,use,only,ho,and之后的所有字符串;
删除首尾单词分别为以下字符的字符串:
start_str=['ft','vi','ab','only','is','part','parts','of','with','al-gt','on'];
end_str=['br','au','tro','ea','the','vi','of','not','bj','nut-','pro-et','sf','iii','all','perc','and','f','to'];例如,如果词组是以is开头,则整个词组会被删掉。
删除字符串开头或结尾为以下字符的字符串:
single_str=['old','input','inch','nan','big','mic','de','pre','in','parts','part','felt','not','hot','ft','ab','ms','to']。例如,如果开头的字符串是oldman,因为开头的字符是old,虽然old不是一个单独的单词,但是这个字符串oldman会被整个删除掉。
将经过以上规则清洗后的词将字符串只含有1至5个单词的保留下来加入词库。
或者,使用互信息和左右信息熵对数据进行产品词组的提取,根据提取结果的抽查,不断调整互信息和左右信息熵的阈值,将抽取到的单词数≤5产品词组保留下来作为产品词加入词库。
其中,所述互信息的计算公式如下:
式中,X和Y表示两个相邻的词,P(X,Y)表示X和Y相邻,且X出现在Y前面的概率,P(X)表示X出现的概率;互信息越大,表示X和Y越有可能连接在一块。
所述左右信息熵的计算公式如下:
式中,EL(W)和ER(W)分别表示左熵和右熵,W表示产品词,A表示W左边出现的所有词的集合,B表示W右边出现的所有词的集合。
左右信息熵即左熵和右熵,以左熵为例,对于词W来说,它左边出现的所有词构成了集合A,对于A里面的所有词,我们分别计算信息熵,并求和,如果一个由多个单词构成的词组,左熵越大,表示它左边出现的词有很多种可能,所以非常有可能左侧的分割是正确的。右熵也是同样的道理,我们找到左右熵都大的词组,则这个词组极有可能是一个有效词组,也就是我们要找的产品词。
最终结果使用步骤S4得到的词库作为总词库。
进一步的,步骤S4中所述词库对所述产品词采用hash map结构进行存储,且每一个所述产品词的第一个词为key,所述产品词的整体为hash结构的value。如此操作,原因在于,当产品词多了之后,产品词遍历会变得非常慢。为了避免速度过慢,本发明使用hashmap结构对产品词进行存储,对于每一个产品词,它的第一个词是key,这个词本身是hash结构的value,例如Car headlight这个词,在hash结构中car是key,Car headlight是value。
通过采用上述技术方案,可以同时结合语法结构、互信息、字符信息、海关数据特有的结构信息等,从而很准确完整的在海关描述文本中找到产品词。
本发明还提供了一种海关数据产品词的检索方法,包括以下步骤:
a1.首先对待检索文本进行分词,构建一个bitmap,以0为初始值;例如对于待检索文本i have a car headlight的bit map就是【0,0,0,0,0】;
b1.然后在以上所述的词库中遍历所述待检索文本中的每一个单词,如果词库中包含所述待检索文本中的单词,则将该单词对应的初始值0替换为1;上述【0,0,0,0,0】遍历后就得到了【0,0,0,1,1】;
c1.最后将bitmap中1的位置拼接起来,得到融合之后的产品词,即为检索目标。
当产品词多了之后,产品词遍历检索会变得非常慢,为了避免速度过慢,本发明优选使用hash map结构对产品词进行存储。针对此种存储结构,本发明还提供了一种海关数据产品词的检索方法,包括以下步骤:
a2.首先对待检索文本进行分词;例如i have a car headlight分词为【i,have,a,car,headlight】;
b2.然后将以上所述的词库减小为key仅为步骤a2所述的待检索文本中的每个单词的hash map;
c2.因为词库中的产品词的长度被限制为1-5,因此最后使用元素个数≤5滑动窗口在所述词库中对所述待检索文本进行检索,得到所有潜在的产品词,并且依次判断是否在hash结构中,如果在,则即得到检索目标。
综上所述,本发明海关数据产品词的提取方法及检索方法针对海关描述文本特有的结构信息,对文本中的特殊字符进行删除或替换,其中,对海关描述文本中的连词符做如下处理:将连接有数字的连词符组成的字符串替换为空格符;将前后分别连接一个或两个字符的字符串删除,以简化文本的组成,从而降低产品词提取难度,提高提取速率和准确率。然后选用字符个数≤3且频率很低的字符串和字符个数大于20的字符串作为分割词,对文本进行分割,并根据针对海关描述文本的语法结构,通过语法规则删除描述部分,或使用互信息和左右信息熵对数据进行产品词组的提取,得到单词数≤5产品词组作为产品词加入词库。此种提取方式,针对性更强,因此准确率更高,同时结合了语法结构、互信息、字符信息、海关数据特有的结构信息,可以很准确完整的在海关描述中找到产品词。此种方法得到的词库更有利于词库的更新和管理,由于产品词的单词数小于等于5,因此能够提高后续检索准确度和效率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种海关数据产品词的提取方法,其特征在于,包括以下步骤:
S1.首先对海关描述文本进行格式统一化处理,然后清洗以及删除除了连词符以外的特殊符号,并规范化单词间隔,所述特殊符号包括但不限于为划线、单引号、双引号、省略号、、/>中的一种或多种;
S2.对海关描述文本中的连词符做如下处理:将连接有数字的连词符组成的字符串替换为空格符;将前后分别连接一个或两个字符的字符串删除;
S3.然后启发式的找到海关描述文本中的分割词,将海关描述文本中的产品词和描述部分进行分割;接着将海关描述文本中的量词和日期正则替换为空格符或删除;
S4.使用步骤S3所述的分割词将海关描述文本分割为若干语句,通过语法规则删除所述海关描述文本中的描述部分,将单词数≤5的产品词组作为产品词加入词库;
或者使用互信息和左右信息熵对经步骤S2处理后的海关描述文本进行产品词组的提取,根据提取结果的抽查,不断调整互信息和左右信息熵的阈值,将抽取到的单词数≤5产品词组保留下来作为产品词加入词库。
2.根据权利要求1所述的海关数据产品词的提取方法,其特征在于,在步骤S3中,所述分割词包括字符个数大于20的字符串和字符个数≤3且出现的频率低于阈值的字符串。
3.根据权利要求2所述的海关数据产品词的提取方法,其特征在于,在步骤S3中,所述出现的频率低于阈值的字符串通过以下方法确定:统计所有字符串,计算每一个字符串出现的频率,频率低于阈值的字符串即为出现的频率低于阈值的字符串。
4.根据权利要求1所述的海关数据产品词的提取方法,其特征在于,在步骤S4中,所述语法规则包括:删除for,used,use,only,ho,and之后的所有字符串;
删除首尾单词分别为以下字符的字符串:
start_str=['ft','vi','ab','only','is','part','parts','of','with','al-gt','on'];
end_str=['br','au','tro','ea','the','vi','of','not','bj','nut-','pro-et','sf','iii','all','perc','and','f','to'];
删除字符串开头或结尾为以下字符的字符串:
single_str=['old','input','inch','nan','big','mic','de','pre','in','
parts','part','felt','not','hot','ft','ab','ms','to']。
5.根据权利要求1所述的海关数据产品词的提取方法,其特征在于,在步骤S4中,所述
互信息的计算公式如下:
式中,X和Y表示两个相邻的词,P(X,Y)表示X和Y相邻,且X出现在Y前面的概率,P(X)表示X出现的概率;
所述左右信息熵的计算公式如下:
式中,EL(W)和ER(W)分别表示左熵和右熵,W表示产品词,A表示W左边出现的所有词的集合,B表示W右边出现的所有词的集合。
6.根据权利要求1所述的海关数据产品词的提取方法,其特征在于,步骤S4中所述词库对所述产品词采用hashmap结构进行存储,且每一个所述产品词的第一个词为key,所述产品词的整体为hash结构的value。
7.一种海关数据产品词的检索方法,其特征在于,包括以下步骤:a1.首先对待检索文本进行分词,构建一个bitmap,以0为初始值;
b1.然后在权利要求1至5中任一项权利要求所述的一种海关数据产品词的提取方法所形成的词库中遍历所述待检索文本中的每一个单词,如果词库中包含所述待检索文本中的单词,则将该单词对应的初始值0替换为1;
c1.最后将bitmap中1的位置拼接起来,得到融合之后的产品词,即为检索目标。
8.一种海关数据产品词的检索方法,其特征在于,包括以下步骤:a2.首先对待检索文本进行分词;
b2.然后将权利要求6所述的一种海关数据产品词的提取方法所形成的词库减小为key仅为步骤a2所述的待检索文本中的每个单词的hash map;
c2.最后使用滑动窗口在所述词库中对所述待检索文本进行检索,得到所有潜在的产品词,并且依次判断是否在hash结构中,如果在,则即得到检索目标。
9.根据权利要求8所述的海关数据产品词的检索方法,其特征在于,在步骤c2中,所述滑动窗口的元素个数≤5。
CN202010917197.0A 2020-09-03 2020-09-03 海关数据产品词的提取方法及检索方法 Active CN111966791B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010917197.0A CN111966791B (zh) 2020-09-03 2020-09-03 海关数据产品词的提取方法及检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010917197.0A CN111966791B (zh) 2020-09-03 2020-09-03 海关数据产品词的提取方法及检索方法

Publications (2)

Publication Number Publication Date
CN111966791A CN111966791A (zh) 2020-11-20
CN111966791B true CN111966791B (zh) 2024-04-19

Family

ID=73391674

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010917197.0A Active CN111966791B (zh) 2020-09-03 2020-09-03 海关数据产品词的提取方法及检索方法

Country Status (1)

Country Link
CN (1) CN111966791B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1117158A (zh) * 1994-07-15 1996-02-21 俞苏宁 辅助汉文双拼音义码及其键盘方案
CN1655107A (zh) * 1999-05-27 2005-08-17 美国在线服务公司 自动更正键盘系统
CN106406881A (zh) * 2015-06-17 2017-02-15 通用电气公司 用于分析形式化的需求以及定位错误的可缩放方法
CN108829658A (zh) * 2018-05-02 2018-11-16 石家庄天亮教育科技有限公司 新词发现的方法及装置
CN109408818A (zh) * 2018-10-12 2019-03-01 平安科技(深圳)有限公司 新词识别方法、装置、计算机设备及存储介质
CN109783526A (zh) * 2018-12-28 2019-05-21 华南理工大学 一种基于专家论文大数据的研究热点分析方法
CN111061924A (zh) * 2019-12-11 2020-04-24 北京明略软件系统有限公司 词组提取方法、装置、设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1117158A (zh) * 1994-07-15 1996-02-21 俞苏宁 辅助汉文双拼音义码及其键盘方案
CN1655107A (zh) * 1999-05-27 2005-08-17 美国在线服务公司 自动更正键盘系统
CN106406881A (zh) * 2015-06-17 2017-02-15 通用电气公司 用于分析形式化的需求以及定位错误的可缩放方法
CN108829658A (zh) * 2018-05-02 2018-11-16 石家庄天亮教育科技有限公司 新词发现的方法及装置
CN109408818A (zh) * 2018-10-12 2019-03-01 平安科技(深圳)有限公司 新词识别方法、装置、计算机设备及存储介质
CN109783526A (zh) * 2018-12-28 2019-05-21 华南理工大学 一种基于专家论文大数据的研究热点分析方法
CN111061924A (zh) * 2019-12-11 2020-04-24 北京明略软件系统有限公司 词组提取方法、装置、设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A dictionary based urdu word segmentation using maximum matching algorithm for space omission problem;Rabiya Rashid 等;《2012 international conference on Asian language processing》;第1-2页 *
微博热词抽取及话题发现研究;郝晓玲 等;《情报杂志》;第34卷(第6期);第109-113页 *

Also Published As

Publication number Publication date
CN111966791A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN108829658B (zh) 新词发现的方法及装置
Creutz et al. Inducing the morphological lexicon of a natural language from unannotated text
US9454597B2 (en) Document management and retrieval system and document management and retrieval method
US20050228642A1 (en) Efficient capitalization through user modeling
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN111897917B (zh) 基于多模态自然语言特征的轨道交通行业术语提取方法
CN113033183A (zh) 一种基于统计量与相似性的网络新词发现方法及系统
CN112307753B (zh) 支持大量词库的分词方法、计算机可读存储介质及系统
CN113033204A (zh) 信息实体抽取方法、装置、电子设备和存储介质
CN113901214B (zh) 表格信息的提取方法、装置、电子设备及存储介质
CN113420766B (zh) 一种融合语言信息的低资源语种ocr方法
CN111966791B (zh) 海关数据产品词的提取方法及检索方法
CN115982390B (zh) 一种产业链构建和迭代扩充开发方法
CN110866397A (zh) 一种基于Ternary Search Trie的电力设备模型特征匹配方法
CN114021564B (zh) 一种针对社交文本的切分取词方法及系统
CN107169065B (zh) 一种特定内容的去除方法和装置
CN111881678B (zh) 一种基于无监督学习的领域词发现方法
CN111090338B (zh) 医疗文书的hmm输入法模型的训练方法、输入法模型和输入方法
CN115203429A (zh) 一种用于构建审计领域本体框架的知识图谱自动扩充方法
CN114154494A (zh) 一种消歧分词方法、系统、装置及存储介质
CN110688835A (zh) 一种基于词语特征值的法律专有领域词发现方法及装置
CN116361517B (zh) 一种企业字号查重方法、装置、设备和介质
CN111144096B (zh) 基于hmm的拼音补全的训练方法、补全模型、补全方法及补全输入法
CN116126893B (zh) 一种数据关联检索方法、装置及相关设备
Wang et al. New cyber word discovery using Chinese word segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant