CN113158695A - 一种面向多语言混合文本的语义审核方法与系统 - Google Patents

一种面向多语言混合文本的语义审核方法与系统 Download PDF

Info

Publication number
CN113158695A
CN113158695A CN202110488706.7A CN202110488706A CN113158695A CN 113158695 A CN113158695 A CN 113158695A CN 202110488706 A CN202110488706 A CN 202110488706A CN 113158695 A CN113158695 A CN 113158695A
Authority
CN
China
Prior art keywords
language
module
translation
text
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110488706.7A
Other languages
English (en)
Inventor
王晓平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jilian Network Technology Co ltd
Original Assignee
Shanghai Jilian Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jilian Network Technology Co ltd filed Critical Shanghai Jilian Network Technology Co ltd
Priority to CN202110488706.7A priority Critical patent/CN113158695A/zh
Publication of CN113158695A publication Critical patent/CN113158695A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及计算机的技术领域,且公开了一种面向多语言混合文本的语义审核方法与系统,包括以下步骤:S1、鉴别主辅语言,并提取翻译辅语言;S2、MLM模型预测;S3、翻译候选结果优选替换;S4、主语言语义审核;通过设计MLM模型预测模块和翻译候选结果优选模块,使用词性标注筛选、词向量相似度比较技术,能够准确地从多义词的多个翻译结果中筛选出真正符合当前上下文语境的结果,确保了翻译结果对原本意思的正确表达,从而为语义审核模型提供了可靠的输入。

Description

一种面向多语言混合文本的语义审核方法与系统
技术领域
本发明涉及计算机的技术领域,具体为一种面向多语言混合文本的语义 审核方法与系统。
背景技术
信息化时代催生了诸多的网络社交平台如微博、聊天论坛、视频弹幕等, 这些网络平台每天都在持续产生着海量的用户交互数据如文本数据、视频数 据,这在丰富了人们精神生活的同时,也给有效的信息审核和监管带来了困 难。
在此形势下,使用算法自动、准确地对数据进行审核的需求日益迫切。 以对文本数据的语义审核为例,通常需要通过训练好的模型(如使用BERT等 预训练模型在下游任务进行微调后得到的深度学习模型)来对文本整体进行 是否违规的判断,但是,网络平台中用户产生的文本往往存在着多种语言混 杂的情形,例如中文文本中夹杂着英文短语或英文单词,在此情况下,使用 单一语言预训练模型微调得到的语义审核模型在进行审核时就会产生偏差从 而导致不可靠的审核结果,而使用支持多种语言的BERT系列预训练模型微调 得到的语义审核模型则会因为单种训练语料的相对不充分从而也会导致审核 可靠性的下降。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种面向多语言混合文本的语义审 核方法与系统,具备提高了审核结果的准确性的优点,解决了不可靠的审核 结果问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种面向多语言混合文本 的语义审核方法,包括以下步骤:
S1、鉴别主辅语言,并提取翻译辅语言;
S2、MLM模型预测;
S3、翻译候选结果优选替换;
S4、主语言语义审核。
优选的,所述S1包括:
S11、输入文本进行主语言和辅语言鉴别,并提取出辅语言文本并翻译;
S12、分析判断辅语言是否为短语或非短语,若是短语,则直接转向翻译 结果替换模块进行处理,若是非短语,则判断是否为多义词,若非多义词, 则转向翻译结果替换模块处理,若是多义词,转向MLM模型预测模块进行处 理。
优选的,所述S2包括:
S21、将多义词辅语言文本用MASK进行掩模处理;
S22、对掩模位置处进行预测,并输出置信度靠前的预测词集合。
优选的,所述S22中对掩模位置处进行预测是基于WWM方式训练的MLM 模型。
优选的,所述S3包括:
S31、将预测结果对待审核混合语言文本中对应的辅语言文本进行替换, 得到完全主语言化的单一语言文本;
S32、进行词性标注,并将翻译结果中词性不同的予以去除;
S33、将筛选后的翻译结果与预测结果依次进行基于主语言的词向量库相 似度比较;
S34、计算后选取最大相似度值对应的翻译结果为优选结果,根据优选结 果对待审核混合语言文本中对应的辅语言文本进行替换,得到完全主语言化 的单一语言文本。
优选的,所述S4包括:
S41、对于翻译结果替换模块输出的主语言化单一语言文本,使用基于主 语言训练得到的语义审核模型进行语义审核。
一种面向多语言混合文本的语义审核系统,包括混合语言文本输入模块、 主辅语言鉴别模块、辅语言提取模块和辅语言翻译模块,所述混合语言文本 输入模块、所述主辅语言鉴别模块、所述辅语言提取模块和所述辅语言翻译 模块依次相连接,所述辅语言翻译模块检测的输出端分别连接辅语言分析判 断模块、翻译结果替换模块和MLM模型预测模块,所述MLM模型预测模块的 输出端与翻译候选结果优选模块连接,所述翻译候选结果优选模块的输出端 连接翻译结果替换模块,所述翻译结果替换模块的输出端连接主语言语义审 核模块,所述主语言语义审核模块的输出端连接审核结果输出模块。
优选的,所述翻译候选结果优选模块包括预测结果替换子模块、主语言 词性标注子模块、翻译结果词性筛选子模块、词向量相似度计算子模块、翻 译结构寻优子模块和翻译结果输出子模块,所述预测结果替换子模块、所述 主语言词性标注子模块、所述翻译结果词性筛选子模块、所述词向量相似度 计算子模块、所述翻译结构寻优子模块和所述翻译结果输出子模块依次相连 接。
(三)有益效果
与现有技术相比,本发明提供了一种面向多语言混合文本的语义审核方 法与系统,具备以下有益效果:
1、通过设计MLM模型预测模块和翻译候选结果优选模块,使用词性标注 筛选、词向量相似度比较技术,能够准确地从多义词的多个翻译结果中筛选 出真正符合当前上下文语境的结果,确保了翻译结果对原本意思的正确表达, 从而为语义审核模型提供了可靠的输入。
2、与通常机器翻译技术不同,本方案应用场景是对多种混合语言文本中 的辅语言文本进行翻译,显然会缺失通常机器翻译在面向整体文本翻译时所 具备的同种语言上下文语境信息,这种翻译困难在对多义词辅语言文本进行 翻译时将变得尤为突出。因此,通常机器翻译技术难以胜任本案所述应用场 景中的任务,而本案提出的方法则克服了这种因缺失同语言上下文语境信息 所带来的翻译困难。
附图说明
图1为本发明系统图;
图2为本发明中的翻译候选结果优选模块流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,一种面向多语言混合文本的语义审核方法,包括以下步骤:
S1、鉴别主辅语言,并提取翻译辅语言;
S2、MLM模型预测;
S3、翻译候选结果优选替换;
S4、主语言语义审核。
本实施例中,具体的,所述S1包括:
S11、输入文本进行主语言和辅语言鉴别,并提取出辅语言文本并翻译;
S12、分析判断辅语言是否为短语或非短语,若是短语,则直接转向翻译 结果替换模块进行处理,若是非短语,则判断是否为多义词,若非多义词, 则转向翻译结果替换模块处理,若是多义词,转向MLM模型预测模块进行处 理。
本实施例中,具体的,所述S2包括:
S21、将多义词辅语言文本用MASK进行掩模处理;
S22、对掩模位置处进行预测,并输出置信度靠前的预测词集合。
本实施例中,具体的,所述S22中对掩模位置处进行预测是基于WWM方 式训练的MLM模型,MLM模型的意思为“掩模语言模型”,Masked Language Modeling。
本实施例中,具体的,所述S3包括:
S31、将预测结果对待审核混合语言文本中对应的辅语言文本进行替换, 得到完全主语言化的单一语言文本;
S32、进行词性标注,并将翻译结果中词性不同的予以去除;
S33、将筛选后的翻译结果与预测结果依次进行基于主语言的词向量库相 似度比较;
S34、计算后选取最大相似度值对应的翻译结果为优选结果,根据优选结 果对待审核混合语言文本中对应的辅语言文本进行替换,得到完全主语言化 的单一语言文本。
本实施例中,具体的,所述S4包括:
S41、对于翻译结果替换模块输出的主语言化单一语言文本,使用基于主 语言训练得到的语义审核模型进行语义审核。
一种面向多语言混合文本的语义审核系统,包括混合语言文本输入模块、 主辅语言鉴别模块、辅语言提取模块和辅语言翻译模块,所述混合语言文本 输入模块、所述主辅语言鉴别模块、所述辅语言提取模块和所述辅语言翻译 模块依次相连接,所述辅语言翻译模块检测的输出端分别连接辅语言分析判 断模块、翻译结果替换模块和MLM模型预测模块,所述MLM模型预测模块的 输出端与翻译候选结果优选模块连接,所述翻译候选结果优选模块的输出端 连接翻译结果替换模块,所述翻译结果替换模块的输出端连接主语言语义审 核模块,所述主语言语义审核模块的输出端连接审核结果输出模块。
本实施例中,具体的,所述翻译候选结果优选模块包括预测结果替换子 模块、主语言词性标注子模块、翻译结果词性筛选子模块、词向量相似度计 算子模块、翻译结构寻优子模块和翻译结果输出子模块,所述预测结果替换 子模块、所述主语言词性标注子模块、所述翻译结果词性筛选子模块、所述 词向量相似度计算子模块、所述翻译结构寻优子模块和所述翻译结果输出子 模块依次相连接。
本实施例中,
对系统各模块的具体描述如下:
1、混合语言文本输入模块
输入待审核的混合语言文本,设定混合语言种类数目为2。
2、主辅语言鉴别模块
统计待审核文本中不同语言字符所出现的数目,定义出现字符数目在整 个混合语言文本中占据主导的语言为主语言,同时定义另外一种语言为辅语 言。例如,对于在中文里夹杂了少量英文词语的混合语言文本,主语言为中 文,辅语言为英文。
3、辅语言提取模块
从待审核文本中提取出辅语言文本,可以根据不同语言对应的ASCII范 围区间,使用正则表达式进行提取。
4、辅语言翻译模块
对辅语言提取模块输出的辅语言文本进行为以主语言为目标语言的翻 译,可以借助于各种机器翻译算法、翻译工具,得到包括词语译义及对应词 性在内的翻译结果。
5、辅语言分析判断模块
对于辅语言文本,首先判断其是否为包含多个词的短语,如果是多词短 语,则直接转向翻译结果替换模块作进一步处理;如果否,则再进一步判断 其是否为多义词:如果非多义词,则转向翻译结果替换模块进行处理,否则 转向MLM模型预测模块作进一步处理。
6、MLM模型预测模块
将待审核混合语言文本中提取的辅语言文本用MASK进行掩模处理;然后 使用基于WWM(Whole Word Masking)方式训练的MLM(Masked Language Modeling)模型对掩模位置处进行预测,并输出置信度靠前的前K个预测词。 MLM具体模型可以使用深度学习模型如BERT、RoBERTa等,优选使用BERT。K 值可按照经验进行设置,优选可设为50。
7、翻译候选结果优选模块
对于MLM模型预测模块输出的预测词集合,依次进行1~4子模块处理, 当完成遍历后,再进行5~6子模块处理:
1)预测结果替换子模块
使用预测结果对待审核混合语言文本中对应的辅语言文本进行替换处 理,得到完全主语言化的单一语言文本。
2)主语言词性标注子模块
对于用预测结果替换后的主语言化单一语言文本,进行词性标注,输出 预测结果所对应的词性。
3)翻译结果词性筛选子模块
根据预测结果的词性,将翻译结果中词性与之不同的作去除处理,同时 保留词性一致的翻译结果。
例如,对中英文混合文本“我不能bear这种待遇”,在英文中,bear为 多义词,既可以翻译成名词“熊”,也可以翻译成动词“忍受”,而根据词性 标注结果分析,此处翻译结果应为动词,那么通过词性筛选就可以去除翻译 结果中不符合当前上下文语境的名词“熊”。
4)词向量相似度计算子模块
将词性筛选后的翻译结果与预测结果依次进行相似度比较,在基于主语 言的词向量库(如Word2Vec、fastText、GloVe等)查询得到各自对应的词 向量后,再对词向量之间进行相似度计算,相似度计算方法可采用余弦相似 度、欧氏距离、马氏距离等。优选采用余弦相似度,其计算公式如下:
Sim(x,y)=xy’/((xx’)(yy’))0.5
其中,x、y分别为待比较的两个词向量,Sim(x,y)为x、y的余弦相似度 计算结果。
5)翻译结果寻优子模块
在遍历完成预测词集合的相似度计算后,对所有的相似度计算结果进行 排序,然后取最大相似度值对应的翻译结果为最终的寻优结果。
例如,对中英文混合文本“我今天的心情很blue”,在英文中,blue为 多义词,既可以翻译成形容词“蓝色的”,也可以翻译成形容词“忧郁的”, 还可以翻译成名词“蓝色”。对此,首先通过词性筛选从翻译结果中去除名词 “蓝色”后,再遍历计算MLM模型对此处的预测结果与翻译结果的词向量相 似度,显然,通过优选过程,可以得出最佳的翻译结果为“忧郁的”。
6)翻译结果输出子模块
将翻译结果寻优子模块输出的结果输出至翻译结果替换模块。
8、翻译结果替换模块
使用翻译候选结果优选模块输出的翻译结果,对待审核的混合语言文本 中对应的辅语言文本进行替换,得到完全主语言化的单一语言文本。
9、主语言语义审核模块
对于翻译结果替换模块输出的主语言化单一语言文本,使用预训练模型 在下游任务微调后得到的语义审核模型进行主语言语义审核。具体的预训练 模型可以使用深度学习模型如BERT、RoBERTa、XLNet、ALBERT、GPT、T5、ELECTRA 等,优选可使用BERT。
10、审核结果输出模块
对主语言语义审核模块输出的审核结果进行输出和展示。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而 言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行 多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限 定。

Claims (8)

1.一种面向多语言混合文本的语义审核方法,其特征在于:包括以下步骤:
S1、鉴别主辅语言,并提取翻译辅语言;
S2、MLM模型预测;
S3、翻译候选结果优选替换;
S4、主语言语义审核。
2.根据权利要求1所述的一种面向多语言混合文本的语义审核方法,其特征在于:所述S1包括:
S11、输入文本进行主语言和辅语言鉴别,并提取出辅语言文本并翻译;
S12、分析判断辅语言是否为短语或非短语,若是短语,则直接转向翻译结果替换模块进行处理,若是非短语,则判断是否为多义词,若非多义词,则转向翻译结果替换模块处理,若是多义词,转向MLM模型预测模块进行处理。
3.根据权利要求2所述的一种面向多语言混合文本的语义审核方法,其特征在于:所述S2包括:
S21、将多义词辅语言文本用MASK进行掩模处理;
S22、对掩模位置处进行预测,并输出置信度靠前的预测词集合。
4.根据权利要求3所述的一种面向多语言混合文本的语义审核方法,其特征在于:所述S22中对掩模位置处进行预测是基于WWM方式训练的MLM模型。
5.根据权利要求4所述的一种面向多语言混合文本的语义审核方法,其特征在于:所述S3包括:
S31、将预测结果对待审核混合语言文本中对应的辅语言文本进行替换,得到完全主语言化的单一语言文本;
S32、进行词性标注,并将翻译结果中词性不同的予以去除;
S33、将筛选后的翻译结果与预测结果依次进行基于主语言的词向量库相似度比较;
S34、计算后选取最大相似度值对应的翻译结果为优选结果,根据优选结果对待审核混合语言文本中对应的辅语言文本进行替换,得到完全主语言化的单一语言文本。
6.根据权利要求5所述的一种面向多语言混合文本的语义审核方法,其特征在于:所述S4包括:
S41、对于翻译结果替换模块输出的主语言化单一语言文本,使用基于主语言训练得到的语义审核模型进行语义审核。
7.一种面向多语言混合文本的语义审核系统,根据权利要求1-6任意一项所述的面向多语言混合文本的语义审核方法,其特征在于:包括混合语言文本输入模块、主辅语言鉴别模块、辅语言提取模块和辅语言翻译模块,所述混合语言文本输入模块、所述主辅语言鉴别模块、所述辅语言提取模块和所述辅语言翻译模块依次相连接,所述辅语言翻译模块检测的输出端分别连接辅语言分析判断模块、翻译结果替换模块和MLM模型预测模块,所述MLM模型预测模块的输出端与翻译候选结果优选模块连接,所述翻译候选结果优选模块的输出端连接翻译结果替换模块,所述翻译结果替换模块的输出端连接主语言语义审核模块,所述主语言语义审核模块的输出端连接审核结果输出模块。
8.根据权利要求7所述的一种面向多语言混合文本的语义审核系统,其特征在于:所述翻译候选结果优选模块包括预测结果替换子模块、主语言词性标注子模块、翻译结果词性筛选子模块、词向量相似度计算子模块、翻译结构寻优子模块和翻译结果输出子模块,所述预测结果替换子模块、所述主语言词性标注子模块、所述翻译结果词性筛选子模块、所述词向量相似度计算子模块、所述翻译结构寻优子模块和所述翻译结果输出子模块依次相连接。
CN202110488706.7A 2021-05-06 2021-05-06 一种面向多语言混合文本的语义审核方法与系统 Pending CN113158695A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110488706.7A CN113158695A (zh) 2021-05-06 2021-05-06 一种面向多语言混合文本的语义审核方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110488706.7A CN113158695A (zh) 2021-05-06 2021-05-06 一种面向多语言混合文本的语义审核方法与系统

Publications (1)

Publication Number Publication Date
CN113158695A true CN113158695A (zh) 2021-07-23

Family

ID=76873431

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110488706.7A Pending CN113158695A (zh) 2021-05-06 2021-05-06 一种面向多语言混合文本的语义审核方法与系统

Country Status (1)

Country Link
CN (1) CN113158695A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114707489A (zh) * 2022-03-29 2022-07-05 马上消费金融股份有限公司 标注数据集获取方法、装置、电子设备及存储介质
CN115688707A (zh) * 2022-12-08 2023-02-03 中国传媒大学 一种多语言混合的新闻价值排序方法
WO2023051284A1 (zh) * 2021-09-28 2023-04-06 北京有竹居网络技术有限公司 自然语言处理的方法和产品

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789461A (zh) * 2011-05-19 2012-11-21 富士通株式会社 多语词典构建装置和多语词典构建方法
CN104391842A (zh) * 2014-12-18 2015-03-04 苏州大学 一种翻译模型构建方法和系统
CN106844350A (zh) * 2017-02-15 2017-06-13 广州索答信息科技有限公司 一种短文本语义相似度的计算方法
CN106919642A (zh) * 2017-01-13 2017-07-04 北京搜狗科技发展有限公司 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN107066455A (zh) * 2017-03-30 2017-08-18 唐亮 一种多语言智能预处理实时统计机器翻译系统
CN107102983A (zh) * 2017-04-20 2017-08-29 北京工业大学 一种基于网络知识源的中文概念的词向量表示方法
CN110543639A (zh) * 2019-09-12 2019-12-06 扬州大学 一种基于预训练Transformer语言模型的英文句子简化算法
CN110634487A (zh) * 2019-10-24 2019-12-31 科大讯飞股份有限公司 一种双语种混合语音识别方法、装置、设备及存储介质
CN111027292A (zh) * 2019-11-29 2020-04-17 北京邮电大学 一种限定采样文本序列生成方法及其系统
CN111368560A (zh) * 2020-02-28 2020-07-03 北京字节跳动网络技术有限公司 文本翻译方法、装置、电子设备及存储介质
CN111400454A (zh) * 2020-03-17 2020-07-10 北京字节跳动网络技术有限公司 摘要生成方法、装置、电子设备及存储介质
CN111783443A (zh) * 2020-06-29 2020-10-16 百度在线网络技术(北京)有限公司 文本扰动检测方法、扰动还原方法、扰动处理方法和装置
CN111931517A (zh) * 2020-08-26 2020-11-13 腾讯科技(深圳)有限公司 文本翻译方法、装置、电子设备以及存储介质
CN111930942A (zh) * 2020-08-07 2020-11-13 腾讯云计算(长沙)有限责任公司 文本分类方法、语言模型训练方法、装置及设备
CN112434523A (zh) * 2020-11-25 2021-03-02 上海极链网络科技有限公司 一种降低敏感词谐音匹配误警率的文本审核装置及方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789461A (zh) * 2011-05-19 2012-11-21 富士通株式会社 多语词典构建装置和多语词典构建方法
CN104391842A (zh) * 2014-12-18 2015-03-04 苏州大学 一种翻译模型构建方法和系统
CN106919642A (zh) * 2017-01-13 2017-07-04 北京搜狗科技发展有限公司 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN106844350A (zh) * 2017-02-15 2017-06-13 广州索答信息科技有限公司 一种短文本语义相似度的计算方法
CN107066455A (zh) * 2017-03-30 2017-08-18 唐亮 一种多语言智能预处理实时统计机器翻译系统
CN107102983A (zh) * 2017-04-20 2017-08-29 北京工业大学 一种基于网络知识源的中文概念的词向量表示方法
CN110543639A (zh) * 2019-09-12 2019-12-06 扬州大学 一种基于预训练Transformer语言模型的英文句子简化算法
CN110634487A (zh) * 2019-10-24 2019-12-31 科大讯飞股份有限公司 一种双语种混合语音识别方法、装置、设备及存储介质
CN111027292A (zh) * 2019-11-29 2020-04-17 北京邮电大学 一种限定采样文本序列生成方法及其系统
CN111368560A (zh) * 2020-02-28 2020-07-03 北京字节跳动网络技术有限公司 文本翻译方法、装置、电子设备及存储介质
CN111400454A (zh) * 2020-03-17 2020-07-10 北京字节跳动网络技术有限公司 摘要生成方法、装置、电子设备及存储介质
CN111783443A (zh) * 2020-06-29 2020-10-16 百度在线网络技术(北京)有限公司 文本扰动检测方法、扰动还原方法、扰动处理方法和装置
CN111930942A (zh) * 2020-08-07 2020-11-13 腾讯云计算(长沙)有限责任公司 文本分类方法、语言模型训练方法、装置及设备
CN111931517A (zh) * 2020-08-26 2020-11-13 腾讯科技(深圳)有限公司 文本翻译方法、装置、电子设备以及存储介质
CN112434523A (zh) * 2020-11-25 2021-03-02 上海极链网络科技有限公司 一种降低敏感词谐音匹配误警率的文本审核装置及方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023051284A1 (zh) * 2021-09-28 2023-04-06 北京有竹居网络技术有限公司 自然语言处理的方法和产品
CN114707489A (zh) * 2022-03-29 2022-07-05 马上消费金融股份有限公司 标注数据集获取方法、装置、电子设备及存储介质
CN114707489B (zh) * 2022-03-29 2023-08-18 马上消费金融股份有限公司 标注数据集获取方法、装置、电子设备及存储介质
CN115688707A (zh) * 2022-12-08 2023-02-03 中国传媒大学 一种多语言混合的新闻价值排序方法

Similar Documents

Publication Publication Date Title
US11475209B2 (en) Device, system, and method for extracting named entities from sectioned documents
CN103885938B (zh) 基于用户反馈的行业拼写错误检查方法
CN113158695A (zh) 一种面向多语言混合文本的语义审核方法与系统
KR20100031800A (ko) 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
Singh et al. A decision tree based word sense disambiguation system in Manipuri language
CN110147546B (zh) 一种英语口语的语法校正方法及装置
Abdurakhmonova et al. Linguistic functionality of Uzbek Electron Corpus: uzbekcorpus. uz
CN110929520A (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
JP2020190970A (ja) 文書処理装置およびその方法、プログラム
CN111091009B (zh) 一种基于语义分析的文档关联审核方法
JPWO2014002774A1 (ja) 同義語抽出システム、方法および記録媒体
Singh et al. Sentiment analysis using lexicon based approach
Fujihira et al. Multilingual sentiment analysis for web text based on word to word translation
Perera et al. A self-learning context-aware lemmatizer for German
CN112380848A (zh) 文本生成方法、装置、设备及存储介质
Khoufi et al. Statistical-based system for morphological annotation of Arabic texts
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
Aytan et al. Deep learning-based Turkish spelling error detection with a multi-class false positive reduction model
CN113011162A (zh) 一种指代消解方法、装置、电子设备及介质
Biswas et al. Development of a Bangla sense annotated corpus for word sense disambiguation
Kumar et al. Prediction of part of speech tags for Punjabi using support vector machines
CN112101019A (zh) 一种基于词性标注和组块分析的需求模板符合性检查优化方法
Mitrpanont et al. TH_WSD: Thai word sense disambiguation using cross-language knowledge sources approach
Saneifar et al. From terminology extraction to terminology validation: an approach adapted to log files
CN115587599B (zh) 一种机器翻译语料的质量检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210723

RJ01 Rejection of invention patent application after publication