CN112101010A - 一种基于bert的电信行业oa办公自动化文稿审核的方法 - Google Patents

一种基于bert的电信行业oa办公自动化文稿审核的方法 Download PDF

Info

Publication number
CN112101010A
CN112101010A CN202011316561.4A CN202011316561A CN112101010A CN 112101010 A CN112101010 A CN 112101010A CN 202011316561 A CN202011316561 A CN 202011316561A CN 112101010 A CN112101010 A CN 112101010A
Authority
CN
China
Prior art keywords
word
text
module
semantic analysis
sensitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011316561.4A
Other languages
English (en)
Other versions
CN112101010B (zh
Inventor
魏利明
费春勇
黄峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongbo Information Technology Institute Co ltd
Original Assignee
Zhongbo Information Technology Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongbo Information Technology Institute Co ltd filed Critical Zhongbo Information Technology Institute Co ltd
Priority to CN202011316561.4A priority Critical patent/CN112101010B/zh
Publication of CN112101010A publication Critical patent/CN112101010A/zh
Application granted granted Critical
Publication of CN112101010B publication Critical patent/CN112101010B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于BERT的电信行业OA办公自动化文稿审核的方法,属于大数据领域,建立客户端模块、敏感词识别模块、词语纠错模块和语义分析模块,解决了传统人工审核的效率低的问题的技术问题,本发明采用了BERT对特定领域的文稿进行了大规模的预训练,并基于此对文稿进行审核,提高了审核的准确性,同时将文字纠错、敏感词、语义等功能进行集成,能够很好的满足用户的各种需求。

Description

一种基于BERT的电信行业OA办公自动化文稿审核的方法
技术领域
本发明属于大数据技术领域,涉及一种基于BERT的电信行业OA办公自动化文稿审核的方法。
背景技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。
由于传统的人工审核系统在新闻文稿过多的情况,单凭人工审核,往往会消耗大量人力资源。而且可能存在审核不准确的情形。
发明内容
本发明的目的是提供一种基于BERT的电信行业OA办公自动化文稿审核的方法,解决了传统人工审核的效率低的问题的技术问题。
为实现上述目的,本发明采用如下技术方案:
一种基于BERT的电信行业OA办公自动化文稿审核的方法,包括如下步骤:
步骤1:建立客户端模块、敏感词识别模块、词语纠错模块和语义分析模块;
客户端模块用于录入待审核文本;
敏感词识别模块用于对待审核文本进行搜索匹配;
词语纠错模块用于对待审核文本中的错别字进行识别和纠正;
语义分析模块用于对待审核文本的逻辑性进行审核,找出语句不通顺的句子;
步骤2:客户端模块接收用户录入的待审核文本,并通过客户端模块选择进行敏感词审核、纠错审核或语义分析审核;
步骤3:客户端模块将待审核文本发送给敏感词识别模块,敏感词识别模块根据电信领域的敏感词词典,对待审核文本进行最大搜索匹配,识别出待审核文本中包含的所有敏感词,并对所有敏感词进行标注,得到敏感词集合;
同时,客户端模块将待审核文本发送给词语纠错模块,词语纠错模块采用BERT模型,对待审核文本中的每个词取得分,选取得分排在前5的词作为候选词,建立候选词集合;
若候选词中没有待审核的词语说明待审核的词语可能为错误的词语,将该词的谐音词、混肴词与候选词进行取交集并降序,并将交集后出现次数最多的词作为纠错后的词语;
词语纠错模块对错误的词语进行标注,并输出纠错后的词语,生成修改文本;
步骤4:当用户选择的是进行敏感词审核时,敏感词识别模块输出敏感词集合到客户端模块,客户端模块向用户展示敏感词集合;
步骤5:当用户选择的是进行纠错审核时,词语纠错模块输出修改文本,客户端模块向用户展示修改文本;
步骤6:当用户选择的是语义分析审核时,语义分析模块调取待审核文本、候选词集合和修改文本,生成标注后文本,语义分析模块对标注后文本中的所有句子进行逻辑审核,即,利用BERT模型对任意一个句子的上下文进行预测,从而得到该句子的最大似然概率,并得到语义分析的结果:若该句子的最大似然概率值低于阈值则表明该句子存在语句不通顺,存在逻辑不当问题,标注该句子为病句;反之,则标注该句子为正常句子;
语义分析模块向客户端模块输出语义分析的结果,客户端模块向用户展示语义分析的结果。
优选的,所述客户端模块部署在客户端服务器中,所述敏感词识别模块、词语纠错模块和语义分析模块部署在中心服务器中。
优选的,在执行步骤2时,用户还可以通过客户端模块选择进行集成处理,当用户选择集成处理后,中心服务器根据步骤3和步骤6的方法,自动对所述待审核文本进行敏感词审核、纠错审核和语义分析审核,获取敏感词集合、修改文本和语义分析的结果,客户端服务器从中心服务器中调取敏感词集合、修改文本和语义分析的结果,并展示给用户。
本发明所述的一种基于BERT的电信行业OA办公自动化文稿审核的方法,解决了传统人工审核的效率低的问题的技术问题,本发明采用了BERT对特定领域的文稿进行了大规模的预训练,并基于此对文稿进行审核,提高了审核的准确性,同时将文字纠错、敏感词、语义等功能进行集成,能够很好的满足用户的各种需求。
附图说明
图1是本发明的总体结构图;
图2是本发明的电信行业OA办公自动化文稿审核流程图;
图3是本发明的敏感词分析结构图;
图4是本发明的BERT预测结果图;
图5是本发明的纠错分析结构图;
图6是本发明的BERT编码器结构图;
图7是本发明的global-attention计算结构图;
图8是本发明的语义分析结构图。
具体实施方式
如图1-图8所示的一种基于BERT的电信行业OA办公自动化文稿审核的方法,包括如下步骤:
步骤1:建立客户端模块、敏感词识别模块、词语纠错模块和语义分析模块;
客户端模块用于录入待审核文本;
敏感词识别模块用于对待审核文本进行搜索匹配;
词语纠错模块用于对待审核文本中的错别字进行识别和纠正;
语义分析模块用于对待审核文本的逻辑性进行审核,找出语句不通顺的句子;
步骤2:客户端模块接收用户录入的待审核文本,并通过客户端模块选择进行敏感词审核、纠错审核或语义分析审核;
步骤3:客户端模块将待审核文本发送给敏感词识别模块,敏感词识别模块根据电信领域的敏感词词典,对待审核文本进行最大搜索匹配,识别出待审核文本中包含的所有敏感词,并对所有敏感词进行标注,得到敏感词集合;
同时,客户端模块将待审核文本发送给词语纠错模块,词语纠错模块采用BERT模型,对待审核文本中的每个词取得分,选取得分排在前5的词作为候选词,建立候选词集合;
例如,输入一个“这个套餐是电信这个月助推的套餐”到纠错模块中,BERT模型会对这句话中的每个词语进行预测,比如对“助推”这个词语的预测结果如图4所示,预测的结果中有“新推”,“主推”,“首推”,“力推”,“刚推”这些词语。若BERT预测的候选词中没有待审核的词语说明该待审核词可能为错误的词语,将该词的谐音词、混肴词与候选词进行取交集并降序,并将交集后出现次数最多的词作为纠错后的词语,在此例子中,候选词中并没有“助推”这个词语,说明该词语可能为错误的词语,之后将“助推”,“zhutui”这个词和其拼音分别在混肴词典和谐音词典去寻找,得到“主推”,“助推”两个候选词,最后将该词语与BERT预测出来的词语取交集,从而得到最准确的词语为“主推”,从而实现了纠错的功能,其具体流程如图5所示。
在电信领域的OA办公自动化文稿审核系统中,存在大量的以往发布的文稿,通过对这些数据进行整理,形成知识库,再引入BERT对其进行学习,从而得到电信领域的文本特征,当再次输入文稿时,BERT将会对词语和句子进行预测,从而达到纠错分析。
BERT(以Transformers为主要框架的双向编码表征模型)采用了mask(遮盖机制)、attention(自注意力机制)和muti-head(多头机制),并在transformer模型结构下进行训练,能够很好的学习大规模的垂直领域的文本特征,从而达到很好的预测效果。
在电信领域的OA办公自动化文稿审核系统中,存在大量的以往发布的文稿,通过对这些数据进行整理,形成知识库,再引入BERT对其进行学习,从而得到电信领域的文本特征,当再次输入文稿时,BERT将会对词语和句子进行预测,从而达到纠错和语义的分析。
BERT预训练的模型结构介绍如下:
BERT从下往上可以分为三层结构:输入层、隐藏层、输出层,其结构图下图6所示;
输入层:
将过往的文稿转为由字向量(BERT)表示的三维数组,并将其作为隐藏层的输入,其中,字向量由网上公开文本数据训练得到,且向量空间为768维。在已有向量的基础之上进行微调训练,可以加快训练的速度,也使得词向量具有良好的特征表示效果,其中输入层是由位置向量(Position Embedding)、字向量(Token Embedding)、句子向量(SegmentEmbedding)拼接形成输入向量(Input Embedding)。
隐藏层:
BERT的隐藏层采用的是Transformer的编码器部分,首先对文稿进行字向量,句向量,位置向量的编码,从而提取句子中每个词,每个句子的抽象特征,然后,通过global-attention将原本由每个字向量组成的句子特征表示转换为由一个768维向量表示的新的句子特征。BERT编码器的整体结构如下图6所示,一共分为6个小Encoder(编码器),其中每个Encoder包含Multi-head(多头层机制) self-attention(自注意力层)、LayerNormalization(归一化层)、Feed Forward(前馈层)、Layer Normalization(归一化层)和full-connect(全连接层)模块,global-attention(全局注意力化层),其全局注意力层结构如图7所示。
输出层:
输出层是mask词或者mask句的概率,最后通过softmax函数把每个词和每个句子的预测的概率计算出来,并和目标词进行交叉熵计算出其损失函数,最后,通过极大似然估计,本实施例中,最小化损失函数的公式为:
Figure 705833DEST_PATH_IMAGE001
其中,Q表示的是未进行mask的词语或者句子,S+表示的是mask的词语或者句子,在一下公式中,最终的目标就是最小化该损失函数:
残差会在表示层的Transformer中反向传播,最终通过随机梯度下降(SGD)使模型收敛,得到各网络层的参数{Wi,bi}。
若候选词中没有该词说明该词可能为错误的词语,将该词的谐音词、混肴词与候选词进行取交集并降序,并将交集后出现次数最多的词作为纠错后的词语;
词语纠错模块对错误的词语进行标注,并输出纠错后的词语,生成修改文本;
步骤4:当用户选择的是进行敏感词审核时,敏感词识别模块输出敏感词集合到客户端模块,客户端模块向用户展示敏感词集合;
步骤5:当用户选择的是进行纠错审核时,词语纠错模块输出修改文本,客户端模块向用户展示修改文本;
步骤6:当用户选择的是语义分析审核时,语义分析模块调取待审核文本、候选词集合和修改文本,生成标注后文本,语义分析模块对标注后文本中的所有句子进行逻辑审核,即,利用BERT模型对任意一个句子的上下文进行预测,从而得到该句子的最大似然概率,并得到语义分析的结果:若该句子的最大似然概率值低于阈值则表明该句子存在语句不通顺,存在逻辑不当问题,标注该句子为病句;反之,则标注该句子为正常句子;
语义分析模块向客户端模块输出语义分析的结果,客户端模块向用户展示语义分析的结果。
优选的,所述客户端模块部署在客户端服务器中,所述敏感词识别模块、词语纠错模块和语义分析模块部署在中心服务器中。
优选的,在执行步骤2时,用户还可以通过客户端模块选择进行集成处理,当用户选择集成处理后,中心服务器根据步骤3和步骤6的方法,自动对所述待审核文本进行敏感词审核、纠错审核和语义分析审核,获取敏感词集合、修改文本和语义分析的结果,客户端服务器从中心服务器中调取敏感词集合、修改文本和语义分析的结果,并展示给用户。
本发明将自然语言处理应用到OA办公自动化文稿审核系统,一方面能够提高文稿审核的效率,另一方面也能够解决传统人工审核的准确性问题。
本发明对电信行业的文本进行了大规模的预训练,提高了垂直领域的文稿审核的精度,通过集成分析和独立分析两种模式,很好的满足了文稿审核的需求,并且通过机器学习的方式实现了自动化的文稿审核,提高了工作的效率,可用于不同垂直领域的智能文稿审核系统,在迁移时,只需要提前整理好该垂直领域的文稿审核数据存入知识库,并根据知识库中的数据对BERT模型进行训练。
本发明所述的一种基于BERT的电信行业OA办公自动化文稿审核的方法,解决了传统人工审核的效率低的问题的技术问题,本发明采用了BERT对特定领域的文稿进行了大规模的预训练,并基于此对文稿进行审核,提高了审核的准确性,同时将文字纠错、敏感词、语义等功能进行集成,能够很好的满足用户的各种需求。

Claims (3)

1.一种基于BERT的电信行业OA办公自动化文稿审核的方法,其特征在于:包括如下步骤:
步骤1:建立客户端模块、敏感词识别模块、词语纠错模块和语义分析模块;
客户端模块用于录入待审核文本;
敏感词识别模块用于对待审核文本进行搜索匹配;
词语纠错模块用于对待审核文本中的错别字进行识别和纠正;
语义分析模块用于对待审核文本的逻辑性进行审核,找出语句不通顺的句子;
步骤2:客户端模块接收用户录入的待审核文本,并通过客户端模块选择进行敏感词审核、纠错审核或语义分析审核;
步骤3:客户端模块将待审核文本发送给敏感词识别模块,敏感词识别模块根据电信领域的敏感词词典,对待审核文本进行最大搜索匹配,识别出待审核文本中包含的所有敏感词,并对所有敏感词进行标注,得到敏感词集合;
同时,客户端模块将待审核文本发送给词语纠错模块,词语纠错模块采用BERT模型,对待审核文本中的每个词取得分,选取得分排在前5的词作为候选词,建立候选词集合;
若候选词中没有待审核的词语说明待审核的词语为错误的词语,将错误的词语的谐音词、混肴词与候选词进行取交集并降序,并将交集后出现次数最多的词作为纠错后的词语;
词语纠错模块对错误的词语进行标注,并输出纠错后的词语,生成修改文本;
步骤4:当用户选择的是进行敏感词审核时,敏感词识别模块输出敏感词集合到客户端模块,客户端模块向用户展示敏感词集合;
步骤5:当用户选择的是进行纠错审核时,词语纠错模块输出修改文本,客户端模块向用户展示修改文本;
步骤6:当用户选择的是语义分析审核时,语义分析模块调取待审核文本、候选词集合和修改文本,生成标注后文本,语义分析模块对标注后文本中的所有句子进行逻辑审核,即,利用BERT模型对任意一个句子的上下文进行预测,从而得到该句子的最大似然概率,并得到语义分析的结果:若该句子的最大似然概率值低于阈值则表明该句子存在语句不通顺,存在逻辑不当问题,标注该句子为病句;反之,则标注该句子为正常句子;
语义分析模块向客户端模块输出语义分析的结果,客户端模块向用户展示语义分析的结果。
2.如权利要求1所述的一种基于BERT的电信行业OA办公自动化文稿审核的方法,其特征在于:所述客户端模块部署在客户端服务器中,所述敏感词识别模块、词语纠错模块和语义分析模块部署在中心服务器中。
3.如权利要求2所述的一种基于BERT的电信行业OA办公自动化文稿审核的方法,其特征在于:在执行步骤2时,用户还可以通过客户端模块选择进行集成处理,当用户选择集成处理后,中心服务器根据步骤3和步骤6的方法,自动对所述待审核文本进行敏感词审核、纠错审核和语义分析审核,获取敏感词集合、修改文本和语义分析的结果,客户端服务器从中心服务器中调取敏感词集合、修改文本和语义分析的结果,并展示给用户。
CN202011316561.4A 2020-11-23 2020-11-23 一种基于bert的电信行业oa办公自动化文稿审核的方法 Active CN112101010B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011316561.4A CN112101010B (zh) 2020-11-23 2020-11-23 一种基于bert的电信行业oa办公自动化文稿审核的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011316561.4A CN112101010B (zh) 2020-11-23 2020-11-23 一种基于bert的电信行业oa办公自动化文稿审核的方法

Publications (2)

Publication Number Publication Date
CN112101010A true CN112101010A (zh) 2020-12-18
CN112101010B CN112101010B (zh) 2021-02-09

Family

ID=73785520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011316561.4A Active CN112101010B (zh) 2020-11-23 2020-11-23 一种基于bert的电信行业oa办公自动化文稿审核的方法

Country Status (1)

Country Link
CN (1) CN112101010B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112950316A (zh) * 2021-03-02 2021-06-11 昆明电力交易中心有限责任公司 基于微调bert模型的电力零售套餐向量表示方法
CN113159969A (zh) * 2021-05-17 2021-07-23 广州故新智能科技有限责任公司 一种金融长文本复核系统
CN114912442A (zh) * 2022-05-18 2022-08-16 山东新一代信息产业技术研究院有限公司 一种基于深度学习的中文文本纠错方法及设备
WO2022174495A1 (zh) * 2021-02-19 2022-08-25 平安科技(深圳)有限公司 文本纠错方法、装置、电子设备及存储介质
CN115204151A (zh) * 2022-09-15 2022-10-18 华东交通大学 中文文本纠错方法、系统及可读存储介质
CN117998145A (zh) * 2024-04-03 2024-05-07 海看网络科技(山东)股份有限公司 一种字幕实时监测方法、系统和设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990002543A (ko) * 1997-06-20 1999-01-15 이계철 시분할 전전자 교환기(tdx-1b) 디지틀 중계선 테스트 장치(bert) 및 그 제어 방법
CN103530430A (zh) * 2013-11-06 2014-01-22 焦点科技股份有限公司 一种含格式的html富文本数据的跨标签处理方法及系统
CN110362826A (zh) * 2019-07-05 2019-10-22 武汉莱博信息技术有限公司 基于人工智能的期刊投稿方法、设备及可读存储介质
CN111310473A (zh) * 2020-02-04 2020-06-19 四川无声信息技术有限公司 文本纠错方法及其模型训练的方法、装置
CN111506708A (zh) * 2020-04-22 2020-08-07 上海极链网络科技有限公司 一种文本审核方法、装置、设备和介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19990002543A (ko) * 1997-06-20 1999-01-15 이계철 시분할 전전자 교환기(tdx-1b) 디지틀 중계선 테스트 장치(bert) 및 그 제어 방법
CN103530430A (zh) * 2013-11-06 2014-01-22 焦点科技股份有限公司 一种含格式的html富文本数据的跨标签处理方法及系统
CN110362826A (zh) * 2019-07-05 2019-10-22 武汉莱博信息技术有限公司 基于人工智能的期刊投稿方法、设备及可读存储介质
CN111310473A (zh) * 2020-02-04 2020-06-19 四川无声信息技术有限公司 文本纠错方法及其模型训练的方法、装置
CN111506708A (zh) * 2020-04-22 2020-08-07 上海极链网络科技有限公司 一种文本审核方法、装置、设备和介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022174495A1 (zh) * 2021-02-19 2022-08-25 平安科技(深圳)有限公司 文本纠错方法、装置、电子设备及存储介质
CN112950316A (zh) * 2021-03-02 2021-06-11 昆明电力交易中心有限责任公司 基于微调bert模型的电力零售套餐向量表示方法
CN112950316B (zh) * 2021-03-02 2023-09-29 昆明电力交易中心有限责任公司 基于微调bert模型的电力零售套餐向量表示方法
CN113159969A (zh) * 2021-05-17 2021-07-23 广州故新智能科技有限责任公司 一种金融长文本复核系统
CN114912442A (zh) * 2022-05-18 2022-08-16 山东新一代信息产业技术研究院有限公司 一种基于深度学习的中文文本纠错方法及设备
CN115204151A (zh) * 2022-09-15 2022-10-18 华东交通大学 中文文本纠错方法、系统及可读存储介质
CN117998145A (zh) * 2024-04-03 2024-05-07 海看网络科技(山东)股份有限公司 一种字幕实时监测方法、系统和设备
CN117998145B (zh) * 2024-04-03 2024-06-18 海看网络科技(山东)股份有限公司 一种字幕实时监测方法、系统和设备

Also Published As

Publication number Publication date
CN112101010B (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN112101010B (zh) 一种基于bert的电信行业oa办公自动化文稿审核的方法
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN109918666B (zh) 一种基于神经网络的中文标点符号添加方法
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN110580292B (zh) 一种文本标签生成方法、装置和计算机可读存储介质
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN111708882B (zh) 基于Transformer的中文文本信息缺失的补全方法
CN111931517B (zh) 文本翻译方法、装置、电子设备以及存储介质
CN110807332A (zh) 语义理解模型的训练方法、语义处理方法、装置及存储介质
CN110795945A (zh) 一种语义理解模型训练方法、语义理解方法、装置及存储介质
CN110597961A (zh) 一种文本类目标注方法、装置、电子设备及存储介质
EP3940693A1 (en) Voice interaction-based information verification method and apparatus, and device and computer storage medium
CN112183094A (zh) 一种基于多元文本特征的中文语法查错方法及系统
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN113053367A (zh) 语音识别方法、语音识别的模型训练方法以及装置
CN112287093A (zh) 基于半监督学习和Text-to-SQL模型的自动问答系统
CN117313728A (zh) 实体识别方法、模型训练方法、装置、设备和存储介质
TWI734085B (zh) 使用意圖偵測集成學習之對話系統及其方法
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN112036186A (zh) 语料标注方法、装置、计算机存储介质及电子设备
CN110210035B (zh) 序列标注方法、装置及序列标注模型的训练方法
CN116978367A (zh) 语音识别方法、装置、电子设备和存储介质
CN113177406B (zh) 文本处理方法、装置、电子设备和计算机可读介质
CN111104806A (zh) 神经机器翻译模型的构建方法及装置、翻译方法及装置
CN112528003B (zh) 一种基于语义排序和知识修正的多项选择问答方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant