CN105760366A - 针对特定领域的新词发现方法 - Google Patents

针对特定领域的新词发现方法 Download PDF

Info

Publication number
CN105760366A
CN105760366A CN201610150038.6A CN201610150038A CN105760366A CN 105760366 A CN105760366 A CN 105760366A CN 201610150038 A CN201610150038 A CN 201610150038A CN 105760366 A CN105760366 A CN 105760366A
Authority
CN
China
Prior art keywords
word
neologisms
candidate
scanning
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610150038.6A
Other languages
English (en)
Other versions
CN105760366B (zh
Inventor
王卿
吴琼
程工
杜漫
庞琳
李雄
刘春阳
张旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Publication of CN105760366A publication Critical patent/CN105760366A/zh
Application granted granted Critical
Publication of CN105760366B publication Critical patent/CN105760366B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种针对特定领域的新词发现方法,包括以下步骤:步骤1,文档预处理;步骤2,构建候选新词集;其中,每个候选新词由词语、该词语距离所述中心词语的距离向量值以及所述中心词语均采用新词表述方式表达。步骤3,候选新词挖掘;优点为:针对特定领域的新词发现方法,采用更灵活的新词表达方式,将数据挖掘领域的关联规则方法引入新词发现过程,并创新地提出将词汇与指定关键词的距离向量作为关联规则挖掘的重要特征,由此可快速准确全面的识别出文档包含的所有新词。

Description

针对特定领域的新词发现方法
技术领域
本发明属于新词发现以及文本挖掘技术领域,具体涉及一种针对特定领域的新词发现方法。
背景技术
随着信息技术和互联网技术的飞速发展,网络上充斥着各种各样的信息,并呈现出指数增长的趋势。在各个专业领域,互联网信息也爆炸式地产生和增长。
在上述网络信息增长过程中,新词不断涌现,对于中文新词的发现,尤其是特定领域的中文新词发现,具有重要意义:一方面,新词的大量而快速地涌现,严重影响中文分词结果的质量,致使分词结果中出现较多的不可识别的“单字”,大大降低了分词结果的准确率,最近的研究还显示,60%的分词错误是由新词导致的,因此,有效地识别新词,将为观察研究分析语言现象的动态变化、规范语言文字以及提高中文自动分词的总体效果起到重要的作用。另一方面,新词发现对于舆情监控、话题检测等挖掘技术的应用也十分关键,可以说,新词发现是这些应用的基础和前提。
由此可见,准确高效的发现新词,具有重要意义。现有技术中虽然出现了少量的新词发现算法,但是,现有的新词发现算法,普遍具有算法复杂度高的问题,难以快速准确的识别出新词;还具有新词识别不全面的问题,难以全面识别出被分析文档包含的所有新词。
发明内容
针对现有技术存在的缺陷,本发明提供一种针对特定领域的新词发现方法,可有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种针对特定领域的新词发现方法,包括以下步骤:
步骤1,文档预处理:基于中文词库,采用中文分词算法对所述原始文档集进行中文分词处理,将所述原始文档集转化为词语序列;
步骤2,构建候选新词集,包括:
步骤2.1,指定所述词语序列中的某个词语作为中心词语,并设定扫描窗口区间;其中,设所述扫描窗口区间为[-a,+b];a和b为正整数或0,并且,a等于或不等于b;
步骤2.2,对于步骤1得到的所述词语序列,以所述中心词语为中心,并从所述中心词语开始,分别向前逆向扫描和向后正向扫描;
其中,向前逆向扫描方法为:在逆向扫描过程中,只要扫描到文档开始位置,即停止扫描;否则,向前逆向逐个扫描每个词语,并判断扫描到的词语距离所述中心词语的距离是否大于a,如果不大于,则记录扫描到的每个词语以及该词语距离所述中心词语的距离向量值;如果大于,则停止扫描;
向后正向扫描方法为:在正向扫描过程中,只要扫描到文档结束位置,即停止扫描;否则,向后正向逐个扫描每个词语,并判断扫描到的词语距离所述中心词语的距离是否大于b,如果不大于,则记录扫描到的每个词语以及该词语距离所述中心词语的距离向量值;如果大于,则停止扫描;
由此得到扫描窗口内的每个词语以及该词语距离所述中心词语的距离向量值;
步骤2.3,步骤2.2扫描得到的每个词语、该词语距离所述中心词语的距离向量值以及所述中心词语均采用新词表述方式表达,形成候选新词;将所有的候选新词所构成的集合,称为候选新词集;
步骤3,候选新词挖掘:对所述候选新词集中的每个所述候选新词进行进一步的挖掘分析,判断每个所述候选新词是否满足新词构成要求,如果满足,则该候选新词即作为最终挖掘到的新词,并输出所述挖掘到的新词;否则,丢弃该候选新词。
优选的,步骤1中,所述中文分词算法为中国科学院计算技术研究所的ICT-CLAS中文分词算法。
优选的,步骤1中,还包括:
在采用中文分词算法对所述原始文档集进行中文分词处理,得到词语序列后,去除所述词语序列中包括的停用词,得到处理后的词语序列。
优选的,步骤3具体为:
设定置信度,并采用关联规则挖掘算法,对所述候选新词集中的每个所述候选新词进行进一步的挖掘分析,得到满足置信度的新词。
优选的,所述关联规则挖掘算法为Apriori算法。
优选的,步骤3之后,还包括:
步骤4,对于步骤3挖掘到的新词,将该新词录入步骤1所使用的所述中文词库,进而可优化后续中文分词效果。
本发明提供的针对特定领域的新词发现方法具有以下优点:
针对特定领域的新词发现方法,采用更灵活的新词表达方式,将数据挖掘领域的关联规则方法引入新词发现过程,并创新地提出将词汇与指定关键词的距离向量作为关联规则挖掘的重要特征,由此可快速准确全面的识别出文档包含的所有新词。
附图说明
图1为本发明提供的针对特定领域的新词发现方法的简要流程图;
图2为本发明提供的针对特定领域的新词发现方法的详细流程图。
具体实施方式
以下结合附图对本发明进行详细说明:
随着中文分词领域地不断发展,出现了两个概念:新词和未登录词。虽然二者有所区分,未登录词是指未收录到词典中的词语,新词则是具有新的形式、含义和用法的词语,新词也是在词典中未出现的词语,也属于未登录词,但新词的含义更广。经统计整理,可将新词分为以下五种类别:
(1)缩略词,指用一个较长词汇中的某几个字代替整个词汇的词,分为中文缩略词和英文缩略词。如“中国石油天然气股份有限公司”缩略为“中石油”,“GeneralManager”缩略为“GM”;
(2)专有名词,主要包括人名、地名、机构名。如“张三”、“中关村”、“百度”。
(3)派生词,主要指含有前缀或后缀词素的词,如“信息化”。
(4)复合词,由动词或名词等组合而成,如“计算机网络”。
(5)数字类复合词,即组成成分中含有数字,包括时间、日期、电话号码、地址、数字等,如“2015年”、“八千万”。
新词作为词组,即为字词的组合搭配,传统的词汇指的是紧密相连的两个或多个字词的排列,即组成词汇的元素之间的距离间隔为0。然而在某些特殊领域,词汇与词汇之间有较为确定的非0的距离关系,如词汇A和词汇B之间间隔3个汉字。而这种词汇A和词汇B的这种固定组合方式,在本发明中也视作新词。也就是说,本发明所指的新词,是广义上的新词,不止包含新的词语,还包含特定距离间隔的词组搭配,例如,“红色xxx月亮”,其中“xxx”表示三个任意字符。此处的“红色”、“月亮”及其中间间隔的三个任意字符即为一个词组搭配,属于本发明创新提出的新词表达方式,而且,本发明主要针对该类由词组搭配构成的新词进行发现。
因此,在本发明广义的新词定义情况下,新词的表达方式除了构成词的元素外,还包括各个元素之间的距离位置信息。
对于上述由词组搭配构成的新词,本发明提供一种针对特定领域的新词发现方法,采用更灵活的新词表达方式,将数据挖掘领域的关联规则方法引入新词发现过程,并创新地提出将词汇与指定关键词的距离向量作为关联规则挖掘的重要特征,由此可快速准确全面的识别出文档包含的所有新词。
本发明提供的针对特定领域的新词发现方法,如图1所示,可大致描述为三个步骤:
步骤a,文档预处理:将原始文档集作为输入,通过中文分词等方法将其转化为词语序列。
步骤b,构建候选新词集:根据步骤1输出的词语序列和指定的中心词,利用本发明介绍的新词表述方式,将位于中心词窗口范围内的词汇组合构建成候选新词集。
步骤c,新词挖掘:通过将步骤b中构建的候选新词的各项特征作为数据挖掘特征,采用关联规则挖掘算法(如Apriori算法)对频繁项集进行挖掘,得到满足一定置信度的新词。
下面结合图2,对本发明方法进行详细介绍:
步骤1,文档预处理:基于中文词库,采用中文分词算法对所述原始文档集进行中文分词处理,将所述原始文档集转化为词语序列;
本步骤中,所处理的原始文档集可以由任意数量的原始文档组成,当然,也可以仅由一个原始文档组成,本发明对此并不限制。
此处所采用的中文分词算法可以为中国科学院计算技术研究所的ICT-CLAS中文分词算法,当然,也可以在此基础上进行针对特定领域的新词扩展,提供了导入特定领域专业词汇的接口。同时,为保证分词质量,可以去除分词结果中的停用词,包括传统停用词、以及针对特殊领域的专业停用词,尽可能地过滤掉噪音词汇。
步骤2,构建候选新词集,包括:
步骤2.1,指定所述词语序列中的某个词语作为中心词语;其中,中心词为所要关注的核心词汇,可根据实际需求任意指定;
设定扫描窗口区间;其中,设所述扫描窗口区间为[-a,+b];a和b为正整数或0,并且,a等于或不等于b;例如,扫描窗口区间可以为[0,+10]、[-11,0]或[-11,+10]等。当a或b为0时,只需要进行单方向扫描即可。
步骤2.2,对于步骤1得到的所述词语序列,以所述中心词语为中心,并从所述中心词语开始,分别向前逆向扫描和向后正向扫描;
其中,向前逆向扫描方法为:在逆向扫描过程中,只要扫描到文档开始位置,即停止扫描;否则,向前逆向逐个扫描每个词语,并判断扫描到的词语距离所述中心词语的距离是否大于a,如果不大于,则记录扫描到的每个词语以及该词语距离所述中心词语的距离向量值;如果大于,则停止扫描;
向后正向扫描方法为:在正向扫描过程中,只要扫描到文档结束位置,即停止扫描;否则,向后正向逐个扫描每个词语,并判断扫描到的词语距离所述中心词语的距离是否大于b,如果不大于,则记录扫描到的每个词语以及该词语距离所述中心词语的距离向量值;如果大于,则停止扫描;
由此得到扫描窗口内的每个词语以及该词语距离所述中心词语的距离向量值;
例如,将词语A作为中心词,其在文档中位置为n,假设设定窗口大小为[-20,+20]。对于向前逆向扫描,则分别扫描位于n-1,n-2,…,n-20的词语,若遇到文档开始位置则停止扫描;对于向后正向扫描,则分别扫描位于n+1,n+2,…,n+20的词语,若遇到文档结束位置则停止扫描。此时,即可将在窗口内的词语表述为词语本身以及其距离中心词的距离向量。
此处需要强调的是,窗口内的词语表述为词语本身以及其距离中心词的距离向量,距离向量的含义为:不仅为词语与中心词的距离值,还与距离在中心词前面或后面出现的方向有关,例如,对于词语序列“ABCD”,假设B为中心词,则A距B的距离向量为-1;而C距B的距离向量为+1。也就是说,方向体现的为词语和中心词的前后顺序关系。
步骤2.3,步骤2.2扫描得到的每个词语、该词语距离所述中心词语的距离向量值以及所述中心词语均采用新词表述方式表达,形成候选新词;将所有的候选新词所构成的集合,称为候选新词集;
本发明中,通过扫描窗口范围内的词汇,将其与中心词组合,连同其与中心词之间的距离向量构成候选新词。
假设文档内容为“ABCDE”,分词结果为“ABCDE”,即:分词后,得到5个词语。如果指定中心词为C,窗口大小设定为[-2,+2]。则构成的候选新词集为(A,C,-2),(B,C,-1),(D,C,+1),(E,C,+2)。
步骤3,候选新词挖掘:对所述候选新词集中的每个所述候选新词进行进一步的挖掘分析,判断每个所述候选新词是否满足新词构成要求,如果满足,则该候选新词即作为最终挖掘到的新词,并输出所述挖掘到的新词;否则,丢弃该候选新词。
本步骤具体为:设定置信度,并采用关联规则挖掘算法,例如,Apriori算法,对所述候选新词集中的每个所述候选新词进行进一步的挖掘分析,得到满足置信度的新词。
具体的,在指定中心词后,根据前述方法可以构成很多的候选新词。而这些候选新词需要进行进一步的检验,本发明运用数据挖掘算法中的关联规则挖掘算法,例如,可采用最常用的Apriori算法,关于Apriori算法的原理和实现在此处不做展开。同时设定置信度,通过对所述候选新词集中的每个所述候选新词进行进一步的挖掘分析,得到满足置信度的新词。
步骤3之后,还包括:
步骤4,对于步骤3挖掘到的新词,将该新词录入步骤1所使用的所述中文词库,进而可优化后续中文分词效果。
本发明主要包括三个关键点:
关键点1,创新的新词定义方法,更灵活的新词表达方式。
在某些特殊领域,某些新词常会在距离中心词一定距离的范围内出现,而现有的新词发现方法,难以发现该类新词。而本发明中,在设定中心词和扫描窗口后,以中心词为起始点,分别从前后两个方向,正向和逆向扫描文档中的字词,经过统计分析,即可有效地发现该类新词。
关键点2,指定中心词的新词发现方法。指定中心词,以该中心词为中心,给定左右窗口长度,计算窗口内的词汇离中心词的距离向量,并以此作为特征,统计和挖掘出新的词汇搭配。
关键点3,基于距离信息的新词挖掘方法。将文档中的词语用词语本身及其位置信息来表述,采用数据挖掘方法中的关联规则的挖掘方法来发现搭配方式较为固定的词汇组合,在满足一定置信度的前提下,将其作为新词。
综上所述,本发明提供的针对特定领域的新词发现方法具有以下优点:
针对特定领域的新词发现方法,采用更灵活的新词表达方式,将数据挖掘领域的关联规则方法引入新词发现过程,并创新地提出将词汇与指定关键词的距离向量作为关联规则挖掘的重要特征,由此可快速准确全面的识别出文档包含的所有新词。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。

Claims (6)

1.一种针对特定领域的新词发现方法,其特征在于,包括以下步骤:
步骤1,文档预处理:基于中文词库,采用中文分词算法对所述原始文档集进行中文分词处理,将所述原始文档集转化为词语序列;
步骤2,构建候选新词集,包括:
步骤2.1,指定所述词语序列中的某个词语作为中心词语,并设定扫描窗口区间;其中,设所述扫描窗口区间为[-a,+b];a和b为正整数或0,并且,a等于或不等于b;
步骤2.2,对于步骤1得到的所述词语序列,以所述中心词语为中心,并从所述中心词语开始,分别向前逆向扫描和向后正向扫描;
其中,向前逆向扫描方法为:在逆向扫描过程中,只要扫描到文档开始位置,即停止扫描;否则,向前逆向逐个扫描每个词语,并判断扫描到的词语距离所述中心词语的距离是否大于a,如果不大于,则记录扫描到的每个词语以及该词语距离所述中心词语的距离向量值;如果大于,则停止扫描;
向后正向扫描方法为:在正向扫描过程中,只要扫描到文档结束位置,即停止扫描;否则,向后正向逐个扫描每个词语,并判断扫描到的词语距离所述中心词语的距离是否大于b,如果不大于,则记录扫描到的每个词语以及该词语距离所述中心词语的距离向量值;如果大于,则停止扫描;
由此得到扫描窗口内的每个词语以及该词语距离所述中心词语的距离向量值;
步骤2.3,步骤2.2扫描得到的每个词语、该词语距离所述中心词语的距离向量值以及所述中心词语均采用新词表述方式表达,形成候选新词;将所有的候选新词所构成的集合,称为候选新词集;
步骤3,候选新词挖掘:对所述候选新词集中的每个所述候选新词进行进一步的挖掘分析,判断每个所述候选新词是否满足新词构成要求,如果满足,则该候选新词即作为最终挖掘到的新词,并输出所述挖掘到的新词;否则,丢弃该候选新词。
2.根据权利要求1所述的针对特定领域的新词发现方法,其特征在于,步骤1中,所述中文分词算法为中国科学院计算技术研究所的ICT-CLAS中文分词算法。
3.根据权利要求1所述的针对特定领域的新词发现方法,其特征在于,步骤1中,还包括:
在采用中文分词算法对所述原始文档集进行中文分词处理,得到词语序列后,去除所述词语序列中包括的停用词,得到处理后的词语序列。
4.根据权利要求1所述的针对特定领域的新词发现方法,其特征在于,步骤3具体为:
设定置信度,并采用关联规则挖掘算法,对所述候选新词集中的每个所述候选新词进行进一步的挖掘分析,得到满足置信度的新词。
5.根据权利要求4所述的针对特定领域的新词发现方法,其特征在于,所述关联规则挖掘算法为Apriori算法。
6.根据权利要求1所述的针对特定领域的新词发现方法,其特征在于,步骤3之后,还包括:
步骤4,对于步骤3挖掘到的新词,将该新词录入步骤1所使用的所述中文词库,进而可优化后续中文分词效果。
CN201610150038.6A 2015-03-16 2016-03-16 针对特定领域的新词发现方法 Expired - Fee Related CN105760366B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2015101133170 2015-03-16
CN201510113317 2015-03-16

Publications (2)

Publication Number Publication Date
CN105760366A true CN105760366A (zh) 2016-07-13
CN105760366B CN105760366B (zh) 2018-06-29

Family

ID=56333323

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610150038.6A Expired - Fee Related CN105760366B (zh) 2015-03-16 2016-03-16 针对特定领域的新词发现方法

Country Status (1)

Country Link
CN (1) CN105760366B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339481A (zh) * 2016-08-30 2017-01-18 电子科技大学 基于最大置信度的中文复合新词发现方法
CN106776543A (zh) * 2016-11-23 2017-05-31 上海智臻智能网络科技股份有限公司 新词发现方法、装置、终端及服务器
CN107038229A (zh) * 2017-04-07 2017-08-11 云南大学 一种基于自然语义分析的用例提取方法
CN108874869A (zh) * 2018-04-24 2018-11-23 中国地质大学(武汉) 一种基于数据协同的地质分类词库的建立方法
CN110019702A (zh) * 2017-09-18 2019-07-16 阿里巴巴集团控股有限公司 数据挖掘方法、装置和设备
CN111680492A (zh) * 2020-06-10 2020-09-18 创新奇智(青岛)科技有限公司 新词挖掘方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004040401A2 (en) * 2002-10-29 2004-05-13 Eli Abir Knowledge system method and apparatus
CN101131705A (zh) * 2007-09-27 2008-02-27 中国科学院计算技术研究所 一种新词发现方法和系统
CN101685441A (zh) * 2008-09-24 2010-03-31 中国科学院自动化研究所 一种基于非连续短语的泛化重排序统计翻译方法及装置
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004040401A2 (en) * 2002-10-29 2004-05-13 Eli Abir Knowledge system method and apparatus
CN101131705A (zh) * 2007-09-27 2008-02-27 中国科学院计算技术研究所 一种新词发现方法和系统
CN101685441A (zh) * 2008-09-24 2010-03-31 中国科学院自动化研究所 一种基于非连续短语的泛化重排序统计翻译方法及装置
CN102169495A (zh) * 2011-04-11 2011-08-31 趣拿开曼群岛有限公司 行业词典生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李明 等: "基于关联规则的新词发现技术研究", 《科技与企业》 *
李明: "针对特定领域的中文新词发现技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106339481A (zh) * 2016-08-30 2017-01-18 电子科技大学 基于最大置信度的中文复合新词发现方法
CN106339481B (zh) * 2016-08-30 2019-04-30 电子科技大学 基于最大置信度的中文复合新词发现方法
CN106776543A (zh) * 2016-11-23 2017-05-31 上海智臻智能网络科技股份有限公司 新词发现方法、装置、终端及服务器
CN106776543B (zh) * 2016-11-23 2019-09-06 上海智臻智能网络科技股份有限公司 新词发现方法、装置、终端及服务器
CN107038229A (zh) * 2017-04-07 2017-08-11 云南大学 一种基于自然语义分析的用例提取方法
CN107038229B (zh) * 2017-04-07 2020-07-17 云南大学 一种基于自然语义分析的用例提取方法
CN110019702A (zh) * 2017-09-18 2019-07-16 阿里巴巴集团控股有限公司 数据挖掘方法、装置和设备
CN110019702B (zh) * 2017-09-18 2023-04-07 阿里巴巴集团控股有限公司 数据挖掘方法、装置和设备
CN108874869A (zh) * 2018-04-24 2018-11-23 中国地质大学(武汉) 一种基于数据协同的地质分类词库的建立方法
CN111680492A (zh) * 2020-06-10 2020-09-18 创新奇智(青岛)科技有限公司 新词挖掘方法、装置及电子设备

Also Published As

Publication number Publication date
CN105760366B (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
CN105760366A (zh) 针对特定领域的新词发现方法
CN107193921B (zh) 面向搜索引擎的中英混合查询纠错的方法及系统
WO2018205389A1 (zh) 语音识别方法、系统、电子装置及介质
US20210312139A1 (en) Method and apparatus of generating semantic feature, method and apparatus of training model, electronic device, and storage medium
US11521603B2 (en) Automatically generating conference minutes
Hamed et al. Building a first language model for code-switch Arabic-English
KR20130018205A (ko) 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법
US11907671B2 (en) Role labeling method, electronic device and storage medium
Chang et al. An unsupervised iterative method for Chinese new lexicon extraction
Bertaglia et al. Exploring word embeddings for unsupervised textual user-generated content normalization
KR101509727B1 (ko) 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
CN111783443A (zh) 文本扰动检测方法、扰动还原方法、扰动处理方法和装置
JP2016224482A (ja) 同義語ペア獲得装置、方法、及びプログラム
Wang et al. Autocorrect in the process of translation--multi-task learning improves dialogue machine translation
JP7197542B2 (ja) テキストワードセグメンテーションの方法、装置、デバイスおよび媒体
CN106844357B (zh) 大句库翻译方法
CN107609095A (zh) 基于加权正负规则前件与相关反馈的跨语言查询扩展方法
Altenbek et al. Kazakh segmentation system of inflectional affixes
CN107526839A (zh) 基于完全加权正负模式的跨语言查询译后后件扩展方法
Xu et al. Extracting chinese product features: representing a sequence by a set of skip-bigrams
Seretan et al. Multi-word collocation extraction by syntactic composition of collocation bigrams.
Jiang et al. Automatic recognition of Chinese unknown word for single-character and affix models
Baishya et al. Present state and future scope of Assamese text processing
Zin Social Media Text Normalization
Takahasi et al. Keyboard logs as natural annotations for word segmentation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180629

Termination date: 20190316