CN113822056A - 文本处理方法及相关装置 - Google Patents
文本处理方法及相关装置 Download PDFInfo
- Publication number
- CN113822056A CN113822056A CN202110714159.XA CN202110714159A CN113822056A CN 113822056 A CN113822056 A CN 113822056A CN 202110714159 A CN202110714159 A CN 202110714159A CN 113822056 A CN113822056 A CN 113822056A
- Authority
- CN
- China
- Prior art keywords
- word
- target
- video
- comment
- corrected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 86
- 238000012549 training Methods 0.000 claims abstract description 61
- 238000012545 processing Methods 0.000 claims description 31
- 238000001514 detection method Methods 0.000 claims description 23
- 238000012937 correction Methods 0.000 abstract description 93
- 230000001976 improved effect Effects 0.000 abstract description 69
- 238000005516 engineering process Methods 0.000 description 18
- 238000004590 computer program Methods 0.000 description 17
- 238000013473 artificial intelligence Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 10
- 238000012015 optical character recognition Methods 0.000 description 10
- 238000011160 research Methods 0.000 description 6
- 241000282414 Homo sapiens Species 0.000 description 5
- 210000003128 head Anatomy 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 208000030533 eye disease Diseases 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及自然语言理解技术领域,并具体公开了一种文本处理方法及相关装置。该方法包括:获取目标视频的目标评论;所述目标评论为用户对所述目标视频发布的评论;检测得到所述目标评论中的待纠正词;所述待纠正词为所述目标评论中似然度较低的词,所述待纠正词的似然度基于将所述待纠正词输入至语言模型中得到,所述语言模型基于候选视频的信息训练得到,所述候选视频包括视频库中与所述目标视频相似度较高的视频。本方法通过综合利用当前短视频内容及整体评论、与当前短视频相似的其他多源视频内容及评论数据,对当前短视频的评论进行自动错误识别与纠正,可以提高评论中错误的识别率及纠正的准确率,提高识别与纠正效率。
Description
技术领域
本申请涉及自然语言理解(natural language understanding,NLU)技术领域,尤其涉及文本处理方法及相关装置。
背景技术
随着计算机的普及和互联网的高速发展,互联网上传播的短视频越来越丰富。短视频已成为人们进行信息传播的一种主要媒介。与此同时,基于各大短视频平台的用户量及活跃度的提高,短视频的评论量也逐渐增长。高质量评论可以为用户评论互动提供良好的社交环境,提高短视频的播放量。因此,在面对海量短视频的质量参差不齐的评论时,对评论文本的错误识别与纠正尤为重要。
目前,对短视频的评论文本内容中可能存在的错误词组进行识别与纠正的方法,对错误的识别率及纠正结果的准确率较低,识别与纠正的效率较低。
发明内容
本申请实施例提供了一种文本处理方法及相关装置,通过综合利用当前短视频内容及整体评论、与当前短视频相似的其他多源视频内容及评论数据,对当前短视频的评论进行自动错误识别与纠正,可以提高评论中错误的识别率及纠正的准确率,提高识别与纠正效率。
第一方面,本申请实施例提供了一种文本处理方法,该方法包括:
获取目标视频的目标评论;所述目标评论为用户对所述目标视频发布的评论;
检测得到所述目标评论中的待纠正词;所述待纠正词为所述目标评论中似然度较低的词,所述待纠正词的似然度基于将所述待纠正词输入至语言模型中得到,所述语言模型基于候选视频的信息训练得到,所述候选视频包括视频库中与所述目标视频相似度较高的视频。
本申请实施例中,提供了一种针对于视频评论文本的错误识别方法。具体为,获取用户对目标视频发布的目标评论,然后将目标评论输入至语言模型中,得到目标评论中每个词的似然度,将目标评论中似然度较低的词作为该目标评论的待纠正词。可以理解的是,目标评论中较低的似然度,只要是比最高的似然度低的,都可以认为是较低的似然度。也可以理解为只要低于某个阈值的似然度,就可以认为是较低的似然度,如低于平均值等,该阈值并不是一个固定的值,可以根据不同的应用场景而不同。可以看出,上述待纠正词的似然度是基于将待纠正词输入至语言模型中得到的,该语言模型又是基于候选视频的信息训练得到,此处的候选视频包括视频库中与上述目标视频相似度较高的视频。
本申请实施例通过综合利用当前短视频内容及整体评论、与当前短视频相似的其他多源视频内容及评论数据,对当前短视频的评论进行自动错误识别,可以提高评论中错误的识别率,提高识别效率。
在一种可能的实施方式中,所述方法还包括:
获取所述待纠正词对应的目标词;所述目标词的似然度大于所述待纠正词的似然度,所述目标词的似然度基于将所述目标词输入至所述语言模型中得到;
将所述待纠正词替换为所述目标词。
在本申请实施例中,提供了一种针对于视频评论文本中的待纠正词的纠正方法。具体为,在检测得到目标评论中的待纠正词之后,获取与该待纠正词对应的目标词,然后将该待纠正词替换为该目标词。其中,目标词的似然度大于待纠正词的似然度,如此可以达到对视频评论文本错误识别并纠正的目的,且目标词的似然度是通过将目标词输入至语言模型中得到,该语言模型又是基于候选视频的信息训练得到,此处的候选视频包括视频库中与上述目标视频相似度较高的视频。
本申请实施例通过综合利用当前短视频内容及整体评论、与当前短视频相似的其他多源视频内容及评论数据,对当前短视频的评论进行自动错误纠正,可以提高评论中错误纠正的准确率,提高纠正效率。
在一种可能的实施方式中,所述检测得到所述目标评论中的待纠正词,包括:
将所述目标评论输入至所述语言模型中,得到所述目标评论中的第一词的似然度;
在所述第一词的似然度小于第一阈值的情况下,将所述第一词作为所述待纠正词。
在本申请实施例中,提供了一种检测目标评论中的待纠正词的具体实施方式。将目标评论输入至上述语言模型中,可以得到目标评论中各个词的似然度,比如得到目标评论中第一词的似然度,在该第一词的似然度小于第一阈值的情况下,将该第一词作为目标评论中的待纠正词。其中,上述第一阈值不是一个固定的值,可以根据不同的应用场景而不同。通过本申请实施例,可以提高评论中待纠正词识别的准确率及效率。
在一种可能的实施方式中,所述语言模型包括第一语言模型和第二语言模型,所述候选视频的信息包括所述候选视频的视频内容文本和所述候选视频的评论内容文本;所述第一语言模型基于所述候选视频的视频内容文本训练得到,所述第二语言模型基于所述候选视频的评论内容文本训练得到;
所述将所述目标评论输入至所述语言模型中,得到所述目标评论中的第一词的似然度,包括:
将所述目标评论输入至所述第一语言模型中,得到所述第一词的第一概率;
将所述目标评论输入至所述第二语言模型中,得到所述第一词的第二概率;
将所述第一概率和所述第二概率加权求和的结果,作为所述第一词的似然度。
在本申请实施例中,提供了一种检测词组似然度的具体实施方式。具体的,上述语言模型包括第一语言模型和第二语言模型,上述候选视频信息包括与目标视频相似度较高的候选视频的视频内容文本和候选视频的评论内容文本,基于候选视频的视频内容文本可以训练得到第一语言模型,基于候选视频的评论内容文本可以得到第二语言模型。将目标评论输入至上述第一语言模型和第二语言模型中,可以分别得到目标评论中各个词的似然度,比如,将目标评论输入至第一语言模型中,得到目标评论中第一词的第一概率,该第一概率表征第一语言模型识别第一词在目标评论中为待纠正词的概率;将目标评论输入至第二语言模型中,得到目标评论中第一词的第二概率,该第二概率表征第二语言模型识别第一词在目标评论中为待纠正词的概率。再将上述第一概率和第二概率加权求和的结果,作为第一词的似然度。通过本申请实施例,可以提高目标评论中词组似然度的检测准确率,从而提高评论中待纠正词识别的准确率及效率。
在一种可能的实施方式中,所述获取所述待纠正词对应的目标词,包括:
获取词库中与所述待纠正词相似度较大的第二词;所述词库基于所述候选视频的信息得到;
将所述待纠正词被所述第二词替换后的所述目标评论输入至所述语言模型中,得到所述第二词的似然度;
在所述第二词的似然度大于第二阈值的情况下,将所述第二词作为所述目标词。
在本申请实施例中,提供了一种获取得到待纠正词对应的目标词的具体实施方式。具体为,基于上述候选视频的信息可以得到词库,从该词库中获取与待纠正词相似度较大的第二词,可以理解的是,词库中与待纠正词较大的相似度,只要是比最低的相似度高的,都可以认为是较大的相似度。也可以理解为只要大于某个阈值的相似度,就可以认为是较大的相似度,如大于平均值等,该阈值并不是一个固定的值,可以根据不同的应用场景而不同。在从词库中获取得到第二词之后,将上述待纠正词被第二词替换后的目标评论输入至语言模型中,得到该第二词的似然度。在第二词的似然度大于第二阈值的情况下,将该第二词作为目标词,用于替换目标评论中的待纠正词。其中,上述第二阈值不是一个固定的值,可以根据不同的应用场景而不同。通过本申请实施例,可以提高获取待纠正词对应的目标词的准确率及效率,从而提高评论中错误纠正的准确率及效率。
在一种可能的实施方式中,所述获取词库中与所述待纠正词相似度较大的第二词,包括:
将所述词库中与所述待纠正词的拼音相似度和笔画相似度的加权值大于第三阈值的词,作为所述第二词。
在本申请实施例中,提供了一种获取词库中的第二词与待纠正词之间相似度的具体实施方式。具体为,将词库中与上述待纠正词的拼音相似度和笔画相似度的加权值大于第三阈值的词,作为第二词。可以通过调整二者权重,仅以拼音相似度较大的词,作为第二词;或者,仅以笔画相似度较大的词,作为第二词;或者,综合考虑拼音相似度和笔画相似度较大的词,作为第二词。其中,上述第三阈值不是一个固定的值,可以根据不同的应用场景而不同。通过本申请实施例,可以提高词库中第二词与待纠正词之间相似度的检测准确率,从而提高获取待纠正词对应的目标词的准确率及效率,提高评论中错误纠正的准确率及效率。
在一种可能的实施方式中,所述获取词库中与所述待纠正词相似度较大的第二词,包括:
将所述词库中与所述待纠正词的拼音或笔画的相似度大于第三阈值的词,作为所述第二词。
在本申请实施例中,将词库中与待纠正词的拼音相似度大于第三阈值的词,作为第二词;或者,将词库中与待纠正词的笔画相似度大于第三阈值的词,作为第二词。
在一种可能的实施方式中,所述候选视频为所述视频库中与所述目标视频相似度大于第四阈值的视频。
在本申请实施例中,候选视频信息包括与目标视频相似度较高的候选视频的视频内容文本和候选视频的评论内容文本。可以理解的是,视频库中视频的文本内容或图像内容与目标视频相似度较高的候选视频,视频库中与目标视频的文本内容或图像内容较高的相似度,只要是比最低的相似度高的,都可以认为是较高的相似度,也可以理解为只要高于某个阈值的相似度,就可以认为是较高的相似度,如高于平均值等。具体的,将视频库中与目标视频的文本内容或图像内容的相似度大于第四阈值的视频,作为候选视频,用于训练得到文本识别与纠错中所需的语言模型。其中,上述第四阈值并不是一个固定的值,可以根据不同的应用场景而不同。通过本申请实施例,可以使获得的候选视频与目标视频更相似,从而基于候选视频的信息训练得到的语言模型对目标视频中的待纠正词的识别准确率及纠正效率更高。
在一种可能的实施方式中,所述语言模型包括第一语言模型和第二语言模型,所述候选视频的信息包括所述候选视频的视频内容文本和所述候选视频的评论内容文本;所述第一语言模型基于所述候选视频的视频内容文本训练得到,所述第二语言模型基于所述候选视频的评论内容文本训练得到;
所述将所述待纠正词被所述第二词替换后的所述目标评论输入至所述语言模型中,得到所述第二词的似然度,包括:
将所述待纠正词被所述第二词替换后的所述目标评论输入至所述第一语言模型中,得到所述第二词的第三概率;
将所述待纠正词被所述第二词替换后的所述目标评论输入至所述第二语言模型中,得到所述第二词的第四概率;
将所述第三概率和所述第四概率加权求和的结果,或者,将所述第三概率、所述第四概率以及所述相似度加权求和的结果,作为所述第二词的似然度。
在本申请实施例中,提供了一种检测词组似然度的具体实施方式。具体的,上述语言模型包括第一语言模型和第二语言模型,上述候选视频信息包括与目标视频相似度较高的候选视频的视频内容文本和候选视频的评论内容文本,基于候选视频的视频内容文本可以训练得到第一语言模型,基于候选视频的评论内容文本可以得到第二语言模型。将上述待纠正词被第二词替换后的目标评论输入至上述第一语言模型和第二语言模型中,可以分别得到目标评论中第二词的似然度,比如,将上述待纠正词被第二词替换后的目标评论输入至第一语言模型中,得到目标评论中第二词的第三概率,该第三概率表征第一语言模型识别第二词在目标评论中可能出现的概率;将上述待纠正词被第二词替换后的目标评论输入至第二语言模型中,得到目标评论中第二词的第四概率,该第四概率表征第二语言模型识别第二词在目标评论中可能出现的概率。再将上述第三概率和第四概率加权求和的结果,作为第二词的似然度。或者,将上述第三概率、第四概率、以及第二词与待纠正词之间的相似度加权求和的结果,作为第二词的似然度。通过本申请实施例,可以提高词库中第二词似然度的检测准确率,从而提高获取待纠正词对应的目标词的准确率及效率,提高评论中错误纠正的准确率及效率。
第二方面,本申请实施例提供了一种文本处理装置,该装置包括:
获取单元,用于获取目标视频的目标评论;所述目标评论为用户对所述目标视频发布的评论;
检测单元,用于检测得到所述目标评论中的待纠正词;所述待纠正词为所述目标评论中似然度较低的词,所述待纠正词的似然度基于将所述待纠正词输入至语言模型中得到,所述语言模型基于候选视频的信息训练得到,所述候选视频包括视频库中与所述目标视频相似度较高的视频。
本申请实施例中,提供了一种针对于视频评论文本的错误识别方法。具体为,获取用户对目标视频发布的目标评论,然后将目标评论输入至语言模型中,得到目标评论中每个词的似然度,将目标评论中似然度较低的词作为该目标评论的待纠正词。可以理解的是,目标评论中较低的似然度,只要是比最高的似然度低的,都可以认为是较低的似然度。也可以理解为只要低于某个阈值的似然度,就可以认为是较低的似然度,如低于平均值等,该阈值并不是一个固定的值,可以根据不同的应用场景而不同。可以看出,上述待纠正词的似然度是基于将待纠正词输入至语言模型中得到的,该语言模型又是基于候选视频的信息训练得到,此处的候选视频包括视频库中与上述目标视频相似度较高的视频。
本申请实施例通过综合利用当前短视频内容及整体评论、与当前短视频相似的其他多源视频内容及评论数据,对当前短视频的评论进行自动错误识别,可以提高评论中错误的识别率,提高识别效率。
在一种可能的实施方式中,所述装置还包括:
所述获取单元,还用于获取所述待纠正词对应的目标词;所述目标词的似然度大于所述待纠正词的似然度,所述目标词的似然度基于将所述目标词输入至所述语言模型中得到;
纠正单元,用于将所述待纠正词替换为所述目标词。
在本申请实施例中,提供了一种针对于视频评论文本中的待纠正词的纠正方法。具体为,在检测得到目标评论中的待纠正词之后,获取与该待纠正词对应的目标词,然后将该待纠正词替换为该目标词。其中,目标词的似然度大于待纠正词的似然度,如此可以达到对视频评论文本错误识别并纠正的目的,且目标词的似然度是通过将目标词输入至语言模型中得到,该语言模型又是基于候选视频的信息训练得到,此处的候选视频包括视频库中与上述目标视频相似度较高的视频。
本申请实施例通过综合利用当前短视频内容及整体评论、与当前短视频相似的其他多源视频内容及评论数据,对当前短视频的评论进行自动错误纠正,可以提高评论中错误纠正的准确率,提高纠正效率。
在一种可能的实施方式中,所述检测单元,具体用于将所述目标评论输入至所述语言模型中,得到所述目标评论中的第一词的似然度;
所述检测单元,具体还用于在所述第一词的似然度小于第一阈值的情况下,将所述第一词作为所述待纠正词。
在本申请实施例中,提供了一种检测目标评论中的待纠正词的具体实施方式。将目标评论输入至上述语言模型中,可以得到目标评论中各个词的似然度,比如得到目标评论中第一词的似然度,在该第一词的似然度小于第一阈值的情况下,将该第一词作为目标评论中的待纠正词。其中,上述第一阈值不是一个固定的值,可以根据不同的应用场景而不同。通过本申请实施例,可以提高评论中待纠正词识别的准确率及效率。
在一种可能的实施方式中,所述语言模型包括第一语言模型和第二语言模型,所述候选视频的信息包括所述候选视频的视频内容文本和所述候选视频的评论内容文本;所述第一语言模型基于所述候选视频的视频内容文本训练得到,所述第二语言模型基于所述候选视频的评论内容文本训练得到;
所述检测单元,具体用于将所述目标评论输入至所述第一语言模型中,得到所述第一词的第一概率;
所述检测单元,具体还用于将所述目标评论输入至所述第二语言模型中,得到所述第一词的第二概率;
所述检测单元,具体还用于将所述第一概率和所述第二概率加权求和的结果,作为所述第一词的似然度。
在本申请实施例中,提供了一种检测词组似然度的具体实施方式。具体的,上述语言模型包括第一语言模型和第二语言模型,上述候选视频信息包括与目标视频相似度较高的候选视频的视频内容文本和候选视频的评论内容文本,基于候选视频的视频内容文本可以训练得到第一语言模型,基于候选视频的评论内容文本可以得到第二语言模型。将目标评论输入至上述第一语言模型和第二语言模型中,可以分别得到目标评论中各个词的似然度,比如,将目标评论输入至第一语言模型中,得到目标评论中第一词的第一概率,该第一概率表征第一语言模型识别第一词在目标评论中为待纠正词的概率;将目标评论输入至第二语言模型中,得到目标评论中第一词的第二概率,该第二概率表征第二语言模型识别第一词在目标评论中为待纠正词的概率。再将上述第一概率和第二概率加权求和的结果,作为第一词的似然度。通过本申请实施例,可以提高目标评论中词组似然度的检测准确率,从而提高评论中待纠正词识别的准确率及效率。
在一种可能的实施方式中,所述获取单元,具体用于获取词库中与所述待纠正词相似度较大的第二词;所述词库基于所述候选视频的信息得到;
所述检测单元,具体用于将所述待纠正词被所述第二词替换后的所述目标评论输入至所述语言模型中,得到所述第二词的似然度;
所述检测单元,具体还用于在所述第二词的似然度大于第二阈值的情况下,将所述第二词作为所述目标词。
在本申请实施例中,提供了一种获取得到待纠正词对应的目标词的具体实施方式。具体为,基于上述候选视频的信息可以得到词库,从该词库中获取与待纠正词相似度较大的第二词,可以理解的是,词库中与待纠正词较大的相似度,只要是比最低的相似度高的,都可以认为是较大的相似度。也可以理解为只要大于某个阈值的相似度,就可以认为是较大的相似度,如大于平均值等,该阈值并不是一个固定的值,可以根据不同的应用场景而不同。在从词库中获取得到第二词之后,将上述待纠正词被第二词替换后的目标评论输入至语言模型中,得到该第二词的似然度。在第二词的似然度大于第二阈值的情况下,将该第二词作为目标词,用于替换目标评论中的待纠正词。其中,上述第二阈值不是一个固定的值,可以根据不同的应用场景而不同。通过本申请实施例,可以提高获取待纠正词对应的目标词的准确率及效率,从而提高评论中错误纠正的准确率及效率。
在一种可能的实施方式中,所述检测单元,具体用于将所述词库中与所述待纠正词的拼音相似度和笔画相似度的加权值大于第三阈值的词,作为所述第二词。
在本申请实施例中,提供了一种获取词库中的第二词与待纠正词之间相似度的具体实施方式。具体为,将词库中与上述待纠正词的拼音相似度和笔画相似度的加权值大于第三阈值的词,作为第二词。可以通过调整二者权重,仅以拼音相似度较大的词,作为第二词;或者,仅以笔画相似度较大的词,作为第二词;或者,综合考虑拼音相似度和笔画相似度较大的词,作为第二词。其中,上述第三阈值不是一个固定的值,可以根据不同的应用场景而不同。通过本申请实施例,可以提高词库中第二词与待纠正词之间相似度的检测准确率,从而提高获取待纠正词对应的目标词的准确率及效率,提高评论中错误纠正的准确率及效率。
在一种可能的实施方式中,所述检测单元,具体还用于将所述词库中与所述待纠正词的拼音或笔画的相似度大于第三阈值的词,作为所述第二词。
在本申请实施例中,将词库中与待纠正词的拼音相似度大于第三阈值的词,作为第二词;或者,将词库中与待纠正词的笔画相似度大于第三阈值的词,作为第二词。
在一种可能的实施方式中,所述候选视频为所述视频库中与所述目标视频相似度大于第四阈值的视频。
在本申请实施例中,候选视频信息包括与目标视频相似度较高的候选视频的视频内容文本和候选视频的评论内容文本。可以理解的是,视频库中视频的文本内容或图像内容与目标视频相似度较高的候选视频,视频库中与目标视频的文本内容或图像内容较高的相似度,只要是比最低的相似度高的,都可以认为是较高的相似度,也可以理解为只要高于某个阈值的相似度,就可以认为是较高的相似度,如高于平均值等。具体的,将视频库中与目标视频的文本内容或图像内容的相似度大于第四阈值的视频,作为候选视频,用于训练得到文本识别与纠错中所需的语言模型。其中,上述第四阈值并不是一个固定的值,可以根据不同的应用场景而不同。通过本申请实施例,可以使获得的候选视频与目标视频更相似,从而基于候选视频的信息训练得到的语言模型对目标视频中的待纠正词的识别准确率及纠正效率更高。
在一种可能的实施方式中,所述语言模型包括第一语言模型和第二语言模型,所述候选视频的信息包括所述候选视频的视频内容文本和所述候选视频的评论内容文本;所述第一语言模型基于所述候选视频的视频内容文本训练得到,所述第二语言模型基于所述候选视频的评论内容文本训练得到;
所述检测单元,具体用于将所述待纠正词被所述第二词替换后的所述目标评论输入至所述第一语言模型中,得到所述第二词的第三概率;
所述检测单元,具体还用于将所述待纠正词被所述第二词替换后的所述目标评论输入至所述第二语言模型中,得到所述第二词的第四概率;
所述检测单元,具体还用于将所述第三概率和所述第四概率加权求和的结果,或者,将所述第三概率、所述第四概率以及所述相似度加权求和的结果,作为所述第二词的似然度。
在本申请实施例中,提供了一种检测词组似然度的具体实施方式。具体的,上述语言模型包括第一语言模型和第二语言模型,上述候选视频信息包括与目标视频相似度较高的候选视频的视频内容文本和候选视频的评论内容文本,基于候选视频的视频内容文本可以训练得到第一语言模型,基于候选视频的评论内容文本可以得到第二语言模型。将上述待纠正词被第二词替换后的目标评论输入至上述第一语言模型和第二语言模型中,可以分别得到目标评论中第二词的似然度,比如,将上述待纠正词被第二词替换后的目标评论输入至第一语言模型中,得到目标评论中第二词的第三概率,该第三概率表征第一语言模型识别第二词在目标评论中可能出现的概率;将上述待纠正词被第二词替换后的目标评论输入至第二语言模型中,得到目标评论中第二词的第四概率,该第四概率表征第二语言模型识别第二词在目标评论中可能出现的概率。再将上述第三概率和第四概率加权求和的结果,作为第二词的似然度。或者,将上述第三概率、第四概率、以及第二词与待纠正词之间的相似度加权求和的结果,作为第二词的似然度。通过本申请实施例,可以提高词库中第二词似然度的检测准确率,从而提高获取待纠正词对应的目标词的准确率及效率,提高评论中错误纠正的准确率及效率。
第三方面,本申请实施例提供一种电子设备,所述电子设备包括处理器和存储器;所述存储器用于存储计算机执行指令;所述处理器用于执行所述存储器所存储的计算机执行指令,以使所述电子设备执行如上述第一方面以及任一项可能的实施方式的方法。可选的,所述电子设备还包括收发器,所述收发器,用于接收信号或者发送信号。
第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储指令或计算机程序;当所述指令或所述计算机程序被执行时,使得第一方面以及任一项可能的实施方式所述的方法被实现。
第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括指令或计算机程序;当所述指令或所述计算机程序被执行时,使得第一方面以及任一项可能的实施方式所述的方法被实现。
第六方面,本申请实施例提供一种芯片,该芯片包括处理器,所述处理器用于执行指令,当该处理器执行所述指令时,使得该芯片执行如第一方面以及任一项可能的实施方式所述的方法。可选的,该芯片还包括通信接口,所述通信接口用于接收信号或发送信号。
第七方面,本申请实施例提供一种系统,所述系统包括至少一个如第二方面或第三方面所述的文本处理装置或第六方面所述的芯片。
此外,在执行上述第一方面以及任一项可能的实施方式所述的方法的过程中,上述方法中有关发送信息和/或接收信息等的过程,可以理解为由处理器输出信息的过程,和/或,处理器接收输入的信息的过程。在输出信息时,处理器可以将信息输出给收发器(或者通信接口、或发送模块),以便由收发器进行发射。信息在由处理器输出之后,还可能需要进行其他的处理,然后才到达收发器。类似的,处理器接收输入的信息时,收发器(或者通信接口、或发送模块)接收信息,并将其输入处理器。更进一步的,在收发器收到该信息之后,该信息可能需要进行其他的处理,然后才输入处理器。
基于上述原理,举例来说,前述方法中提及的发送信息可以理解为处理器输出信息。又例如,接收信息可以理解为处理器接收输入的信息。
可选的,对于处理器所涉及的发射、发送和接收等操作,如果没有特殊说明,或者,如果未与其在相关描述中的实际作用或者内在逻辑相抵触,则均可以更加一般性的理解为处理器输出和接收、输入等操作。
可选的,在执行上述第一方面以及任一项可能的实施方式所述的方法的过程中,上述处理器可以是专门用于执行这些方法的处理器,也可以是通过执行存储器中的计算机指令来执行这些方法的处理器,例如通用处理器。上述存储器可以为非瞬时性(non-transitory)存储器,例如只读存储器(Read Only Memory,ROM),其可以与处理器集成在同一块芯片上,也可以分别设置在不同的芯片上,本申请实施例对存储器的类型以及存储器与处理器的设置方式不做限定。
在一种可能的实施方式中,上述至少一个存储器位于装置之外。
在又一种可能的实施方式中,上述至少一个存储器位于装置之内。
在又一种可能的实施方式之中,上述至少一个存储器的部分存储器位于装置之内,另一部分存储器位于装置之外。
本申请中,处理器和存储器还可能集成于一个器件中,即处理器和存储器还可以被集成在一起。
本申请实施例中,通过综合利用当前短视频内容及整体评论、与当前短视频相似的其他多源视频内容及评论数据,对当前短视频的评论进行自动错误识别与纠正,可以提高评论中错误的识别率及纠正的准确率,提高识别与纠正效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本处理的架构示意图;
图2为本申请实施例提供的一种文本处理方法的流程示意图;
图3为本申请实施例提供的一种语言模型的结构示意图;
图4为本申请实施例提供的另一种文本处理方法的流程示意图;
图5为本申请实施例提供的另一种语言模型的结构示意图;
图6为本申请实施例提供的一种文本处理装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图;
图8a为本申请实施例提供的一种数据共享系统;
图8b为本申请实施例提供的一种区块链的示意图;
图8c为本申请实施例提供的一种新区块产生过程的示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图对本申请实施例进行描述。
本申请的说明书、权利要求书及附图中的术语“第一”和“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备等,没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元等,或可选地还包括对于这些过程、方法、产品或设备等固有的其它步骤或单元。
在本文中提及的“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员可以显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上,“至少两个(项)”是指两个或三个及三个以上,“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
本申请提供了一种文本处理方法,涉及人工智能的自然语言理解等技术,为了更清楚地描述本申请的方案,下面先介绍一些与文本处理相关的知识。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
似然度:衡量“某个文本像不像一段正常文本”或“某个词出现在文本中所处位置的可能性”的指标,可以通过语言模型计算。似然度越低,表示该词出现在文本中所处位置的可能性越小,该文本越不像一段正常文本。
短视频的出处长视频:很多短视频是从长视频中截取出一个片段构建,短视频对应的截取来源长视频为短视频的出处长视频。长视频一般是电视剧、电影、综艺、体育、动漫、游戏、少儿等专业制作的较长时长的视频。
视频自动语音识别(automatic speech recognition,ASR)文本:对视频语音经过ASR转换出的文本内容。
视频光学字符识别(optical character recognition,OCR)文本:对视频画像通过OCR转换出的文本内容。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
随着计算机的普及和互联网的高速发展,互联网上传播的短视频越来越丰富。短视频已成为人们进行信息传播的一种主要媒介。与此同时,基于各大短视频平台的用户量及活跃度的提高,短视频的评论量也逐渐增长。高质量评论可以为用户评论互动提供良好的社交环境,提高短视频的播放量。因此,在面对海量短视频的质量参差不齐的评论时,对评论文本的错误识别与纠正尤为重要。
目前,对短视频的评论文本内容中可能存在的错误词组进行识别与纠正的方法,均以普通文本的纠错方式,利用当前待纠正的评论内容对其进行错误识别与纠正,对错误的识别率及纠正结果的准确率较低,识别与纠正的效率较低。
针对上述识别与纠正方法中存在的识别准确率和效率较低的问题,本申请提供了一种新的文本处理架构,并基于该文本处理架构提供了一种新的文本处理方法。通过实施本申请所提供的文本处理架构和文本处理方法,可以综合利用当前短视频内容及整体评论、与当前短视频相似的其他多源视频内容及评论数据,对当前短视频的评论进行自动错误识别与纠正,可以提高评论中错误的识别率及纠正的准确率,提高识别与纠正效率。
下面结合本申请实施例中的附图对本申请实施例进行描述。
请参阅图1,图1为本申请实施例提供的一种文本处理的架构示意图。
如图1所示,本申请实施例中的文本处理架构主要包括获取多源视频模块、基于多源视频构建多源词库/语言模型模块、当前视频评论错误识别模块、当前视频评论错误纠正模块。
其中,获取多源视频模块,主要用于对获取到的当前短视频识别出其出处长视频,以及与之相似的其他短视频。具体可以采用文本内容检索和图像内容检索,将视频库中的视频构建文本(标题、OCR/ASR文本)与图像(从视频中抽取的图像帧)相似检索索引,基于当前短视频的标题、OCR/ASR文本、图像帧,对视频库中的文本与图像索引进行相似检索,将文本与图像相似度满足一定阈值的视频列表作为当前短视频的多源相似视频候选列表。
基于多源视频构建多源词库/语言模型模块,主要用于根据当前短视频、出处长视频以及相似短视频等多源视频的视频信息构建相应的词库和语言模型。具体为,获取当前短视频、出处长视频以及相似短视频的内容文本,包括标题、OCR/ASR文本、长视频简介、长视频演员信息等,对上述多源视频内容文本进行分词,构建视频内容词库,该视频内容词库包括若干个视频内容词及其在视频内容文本中出现的词频。并将该视频内容词库中的视频内容词作为训练语料,训练得到视频内容语言模型,该视频内容语言模型具备输入视频文本内容,计算在多源视频内容文本语料知识背景下,每个词的上下文语言模型概率。同理,获取当前短视频、出处长视频以及相似短视频的评论文本,对上述多源评论文本进行分词,构建评论词库,该评论词库包括若干个评论词及其在评论文本中出现的词频。并将该评论词库中的评论词作为训练语料,训练得到视频评论语言模型,该视频评论语言模型具备输入文本内容,计算在多源视频评论文本语料背景下,每个词的上下文语言模型概率。上述多源语言模型首先在通用大规模文本语料上进行预训练,对模型的表示进行充分学习,然后再对通用语料语言模型在视频内容文本、视频评论文本上进行调优,构建出多源视频内容语言模型、多源视频评论语言模型。
当前视频评论错误识别模块,主要用于通过结合使用上述基于多源视频构建多源词库/语言模型模块得到的通用语言模型、多源视频内容语言模型、多源视频评论语言模型,对当前待纠正评论进行错误识别。具体为,对当前评论进行分词,然后分别经过上述通用语言模型、多源视频内容语言模型、多源视频评论语言模型,计算当前评论中每个词的上下文语言模型概率,当其中某个词的综合语言模型概率小于一定阈值的时候,判断该词存在错误,后续将对其进行错误纠正。
当前视频评论错误纠正模块,主要用于对上述当前视频评论错误识别模块识别出来的待纠正词进行错误纠正,将其替换为目标词。具体的,当前视频评论错误纠正模块对上述构建的多源视频内容词库和多源视频评论词库构建纠正候选索引,用于对待纠正词位置构建纠正候选。可以通过拼音索引构建、笔画索引构建对上述多源词库构建纠正候选索引,并基于上述构建的拼音与笔画索引,为待纠正词的位置上,构建拼音和笔画相似纠正候选。在构建出纠正候选队列后,通过为每个纠正候选进行语言模型概率得分计算,通过将纠正候选替换待纠正词的位置,输入至上述构建的通用语言模型、多源视频内容语言模型、多源视频评论语言模型,计算出每个纠正候选的综合语言模型概率。当其中某个纠正候选的综合语言模型概率大于一定阈值的时候,确定该纠正候选为待纠正词所对应的目标词,用于替换该待纠正词,实现评论文本的错误纠正。
基于上述图1中的文本处理架构,本申请还提供了一种新的文本处理方法,下面将结合图2对其进行说明。
请参阅图2,图2为本申请实施例提供的一种文本处理方法的流程示意图,该方法包括但不限于如下步骤:
步骤201:获取目标视频的目标评论。
电子设备获取目标视频的目标评论,该目标评论为用户对目标视频发布的评论。
其中,本申请实施例中的电子设备为搭载了可用于执行计算机执行指令的处理器的设备,该电子设备可以是手机、计算机、服务器等。目标评论为具有完整、系统含义的一个句子或多个句子的组合,一个目标评论可以是一个句子、一个小段落或者一个小篇章等。
步骤202:检测得到目标评论中的待纠正词。
电子设备检测得到目标评论中的待纠正词,该待纠正词为目标评论中似然度较低的词,该待纠正词的似然度基于将该待纠正词输入至语言模型中得到,该语言模型基于候选视频的信息训练得到,该候选视频包括视频库中与上述目标视频相似度较高的视频。
可以理解的是,该目标评论中较低的似然度,只要是比最高的似然度低的,都可以认为是较低的似然度。也可以理解为只要低于某个阈值的似然度,就可以认为是较低的似然度,如低于平均值等,该阈值并不是一个固定的值,可以根据不同的应用场景而不同。可以看出,上述待纠正词的似然度是基于将待纠正词输入至语言模型中得到的,该语言模型又是基于候选视频的信息训练得到,此处的候选视频包括视频库中与上述目标视频相似度较高的视频。
具体实现过程为,首先根据目标视频获取与目标视频相似度较高的视频。
利用文本内容检索与图像内容检索对视频库中的视频构建索引。其中,文本内容检索可以通过将视频的字幕文本(OCR/ASR)构建倒排,从而实现通过输入目标视频的文本内容在视频库中找到与目标视频相似的视频。图像内容检索通过将视频抽取图像帧,每隔一段时间抽取一帧,对每个图像帧经过模型构建表示向量,进而实现向量相似检索。对当前目标视频识别其出处长视频时,通过对当前目标视频基于OCR/ASR识别文本,并通过抽取图像帧,基于文本与图像检索长视频索引库,将文本与图像相似度均满足一定阈值的最高相似长视频作为当前目标视频的出处长视频。同理,对当前目标视频识别与其相似短视频时,通过对当前目标视频基于OCR/ASR识别文本,并通过抽取图像帧,基于文本与图像检索长视频索引库,将文本与图像相似度均满足一定阈值的最高相似短视频作为当前目标视频的相似短视频。以此实现根据目标视频获取与目标视频相似度较高的多源视频。其中,上述阈值并不是一个固定的值,可以根据不同的应用场景而不同。通过本申请实施例,可以使获得的候选视频与目标视频更相似,从而基于候选视频的信息训练得到的语言模型对目标视频中的待纠正词的识别准确率及纠正效率更高。
其次,基于当前的目标视频以及根据目标视频获取到的与目标视频相似度较高的多源候选视频,构建多源词库与语言模型。
由上述步骤可知,多源候选视频包括但不限于目标视频的出处长视频、与目标视频相似度较高的短视频等。这些多源候选视频的信息主要包括与目标视频相似度较高的候选视频的视频内容文本和候选视频的评论内容文本。可以理解的是,视频库中视频的文本内容或图像内容与目标视频相似度较高的候选视频,视频库中与目标视频的文本内容或图像内容较高的相似度,只要是比最低的相似度高的,都可以认为是较高的相似度,也可以理解为只要高于某个阈值的相似度,就可以认为是较高的相似度,如高于平均值等。
基于对上述候选视频的视频内容文本进行分词,可以得到视频内容词库,该视频内容词库包括若干个视频内容词及其在视频内容文本中出现的词频。基于对上述候选视频的评论内容文本进行分词,可以得到评论词库,该评论词库包括若干个评论词及其在评论文本中出现的词频。并且,基于上述视频内容词库作为训练语料,可以训练得到第一语言模型,该第一语言模型具备输入视频文本内容,计算在多源视频内容文本语料知识背景下,每个词的上下文语言模型概率。基于上述评论词库作为训练语料,可以训练得到第二语言模型,该第二语言模型具备输入文本内容,计算在多源视频评论文本语料背景下,每个词的上下文语言模型概率。
最后,基于构建的多源语言模型,对目标视频的目标评论进行错误识别。
将目标评论输入至基于上述候选视频信息训练得到的语言模型中,可以得到目标评论中各个词的似然度,比如得到目标评论中第一词的似然度,在该第一词的似然度小于第一阈值的情况下,将该第一词作为目标评论中的待纠正词。其中,上述第一阈值不是一个固定的值,可以根据不同的应用场景而不同。
或者,将目标评论输入至上述第一语言模型和第二语言模型中,可以分别得到目标评论中各个词的似然度。比如,将目标评论输入至第一语言模型中,得到目标评论中第一词的第一概率,该第一概率表征第一语言模型识别第一词在目标评论中为待纠正词的概率;将目标评论输入至第二语言模型中,得到目标评论中第一词的第二概率,该第二概率表征第二语言模型识别第一词在目标评论中为待纠正词的概率。再将上述第一概率和第二概率加权求和的结果,作为第一词的似然度。通过本申请实施例,可以提高目标评论中词组似然度的检测准确率,从而提高评论中待纠正词识别的准确率及效率。
具体的,上述基于多源候选视频构建的语言模型,可参阅图3,图3为本申请实施例提供的一种语言模型的结构示意图。
如图3所示,以上述多种类型的视频内容文本为训练语料进行模型训练,采用变压-编码(Transformer-Encoder)结构的网络模型,计算每个词的上下文双向语言模型概率。其中,Transformer是一种新的、基于自注意力机制来实现的特征提取器,可用于代替卷积神经网络(Convolutional Neural Network,CNN)和循环神经网络(Recurrent NeuralNetwork,RNN)来提取文本序列的特征。Transformer可用于编码-解码(encoder-decoder)架构,Transformer还可单独应用于编码encoder或者单独应用于解码decoder架构。将视频内容文本输入至模型中,对其分词得到位置0上的词0、位置1上的词1、位置2上的词2、……、位置w上的词w,再将各个词组经过Transformer-Encoder层,可以得到各个词组的语言模型概率。可以看出,基于多种类型的视频内容文本为训练语料,训练得到的视频内容语言模型,具备输入视频文本内容,计算在多源视频内容文本语料知识背景下,每个词的上下文语言模型概率。
同理,在上述多种类型的视频评论文本上训练,采用Transformer-Encoder结构的网络模型,计算每个词的上下文双向语言模型概率。可以得到,基于多种类型的视频评论文本为训练语料,训练得到的视频评论语言模型,具备输入视频评论文本,计算在多源视频评论文本语料知识背景下,每个词的上下文语言模型概率。
示例性的,在一个表现演员演技的目标视频下,某用户发布目标评论“这位演员的眼疾太好了!”。此时,语言模型基于与该目标视频相似的多源视频的视频内容文本和视频评论文本,识别得到该目标评论中存在的待纠正词“眼疾”,并对其进行后续相应的纠正操作。
请参阅图4,图4为本申请实施例提供的另一种文本处理方法的流程示意图,也可以理解为是上述图2中的文本处理方法流程图的补充。
步骤401:获取目标视频的目标评论。
电子设备获取目标视频的目标评论,该目标评论为用户对目标视频发布的评论。
其中,本申请实施例中的电子设备为搭载了可用于执行计算机执行指令的处理器的设备,该电子设备可以是手机、计算机、服务器等。目标评论为具有完整、系统含义的一个句子或多个句子的组合,一个目标评论可以是一个句子、一个小段落或者一个小篇章等。
步骤402:基于与目标视频相似的多源视频内容与文本,构建多源词库与语言模型。
电子设备基于与目标视频相似的多源视频内容与文本,构建多源词库与语言模型。
其中,基于对多源候选视频的视频内容文本进行分词,可以得到视频内容词库,该视频内容词库包括若干个视频内容词及其在视频内容文本中出现的词频,如下表一所示:
表一
视频内容词1 | 词1词频 |
视频内容词2 | 词2词频 |
…… | …… |
视频内容词w | 词w词频 |
并且,基于上述视频内容词库作为训练语料,可以训练得到视频内容语言模型,该视频内容语言模型具备输入视频文本内容,计算在多源视频内容文本语料知识背景下,每个词的上下文语言模型概率,具体可参阅图3,此处不再赘述。
此外,基于对多源候选视频的评论内容文本进行分词,可以得到评论词库,该评论词库包括若干个评论词及其在评论文本中出现的词频,如下表二所示:
表二
评论词1 | 词1词频 |
评论词2 | 词2词频 |
…… | …… |
评论词w | 词w词频 |
并且,基于上述评论词库作为训练语料,可以训练得到评论语言模型,该评论语言模型具备输入文本内容,计算在多源视频评论文本语料背景下,每个词的上下文语言模型概率,具体可参阅图3,此处不再赘述。
步骤403:检测得到目标评论中的待纠正词。
电子设备检测得到目标评论中的待纠正词,该待纠正词为目标评论中似然度较低的词,该待纠正词的似然度基于将该待纠正词输入至语言模型中得到,该语言模型基于候选视频的信息训练得到,该候选视频包括视频库中与上述目标视频相似度较高的视频。
本步骤与上述步骤202一致,此处不再赘述。
步骤404:获取与待纠正词对应的目标词。
电子设备获取与待纠正词对应的目标词,其中,目标词的似然度大于待纠正词的似然度,如此可以达到对视频评论文本错误识别并纠正的目的,且目标词的似然度是通过将目标词输入至语言模型中得到,该语言模型又是基于候选视频的信息训练得到,此处的候选视频包括视频库中与上述目标视频相似度较高的视频。
具体为,首先基于上述步骤402中构建的多源词库,从该词库中获取与待纠正词相似度较大的第二词。可以理解的是,词库中与待纠正词较大的相似度,只要是比最低的相似度高的,都可以认为是较大的相似度。也可以理解为只要大于某个阈值的相似度,就可以认为是较大的相似度,如大于平均值等,该阈值并不是一个固定的值,可以根据不同的应用场景而不同。具体实现方式可以是,将词库中与上述待纠正词的拼音相似度和笔画相似度的加权值大于第三阈值的词,作为第二词。可以通过调整二者权重,仅以拼音相似度较大的词,作为第二词;或者,仅以笔画相似度较大的词,作为第二词;或者,综合考虑拼音相似度和笔画相似度较大的词,作为第二词。也可以不计算二者的加权值,直接将词库中与待纠正词的拼音相似度大于第三阈值的词,作为第二词;或者,将词库中与待纠正词的笔画相似度大于第三阈值的词,作为第二词。其中,上述第三阈值不是一个固定的值,可以根据不同的应用场景而不同。通过本申请实施例,可以提高词库中第二词与待纠正词之间相似度的检测准确率,从而提高获取待纠正词对应的目标词的准确率及效率,提高评论中错误纠正的准确率及效率。
然后,在从词库中获取得到第二词之后,将上述待纠正词被第二词替换后的目标评论输入至上述图3所示的语言模型中,得到该第二词的似然度。在第二词的似然度大于第二阈值的情况下,将该第二词作为目标词,用于替换目标评论中的待纠正词。其中,上述第二阈值不是一个固定的值,可以根据不同的应用场景而不同。
进一步地,上述语言模型包括第一语言模型和第二语言模型,分别基于候选视频的视频内容文本训练得到第一语言模型,基于候选视频的评论内容文本得到第二语言模型。将上述待纠正词被第二词替换后的目标评论输入至上述第一语言模型和第二语言模型中,可以分别得到目标评论中第二词的似然度。比如,将上述待纠正词被第二词替换后的目标评论输入至第一语言模型中,得到目标评论中第二词的第三概率,该第三概率表征第一语言模型识别第二词在目标评论中可能出现的概率;将上述待纠正词被第二词替换后的目标评论输入至第二语言模型中,得到目标评论中第二词的第四概率,该第四概率表征第二语言模型识别第二词在目标评论中可能出现的概率。再将上述第三概率和第四概率加权求和的结果,作为第二词的似然度。或者,将上述第三概率、第四概率、以及第二词与待纠正词之间的相似度加权求和的结果,作为第二词的似然度。通过本申请实施例,可以提高词库中第二词似然度的检测准确率,从而提高获取待纠正词对应的目标词的准确率及效率,提高评论中错误纠正的准确率及效率。
具体的,本步骤中用于获取与待纠正词对应的目标词中所需的模型,还可参阅图5,图5为本申请实施例提供的另一种语言模型的结构示意图。
如图5所示,该语言模型用于纠正候选判定。在通过上述从该词库中获取与待纠正词相似度较大的第二词的方法,构建出纠正候选队列后,为每个纠正候选进行语言模型概率得分计算。通过将纠正候选替换待纠正词的位置,输入至上述构建的通用语言模型、多源视频内容语言模型、多源视频评论语言模型,计算出每个纠正候选的综合语言模型概率。其中,纠正候选的综合语言模型概率需满足大于原始待纠正词综合语言模型概率的条件,以此实现识别与纠正的目的。将上述纠正候选的综合语言模型概率、纠正候选与待纠正词相似概率加权求和的结果,作为纠正候选的似然度,当其中某个纠正候选的似然度大于一定阈值的时候,确定该纠正候选为待纠正词所对应的目标词,用于替换该待纠正词,实现评论文本的错误纠正。
示例性的,在一个表现演员演技的目标视频下,某用户发布目标评论“这位演员的眼疾太好了!”。此时,语言模型基于与该目标视频相似的多源视频的视频内容文本和视频评论文本,识别得到该目标评论中存在的待纠正词“眼疾”。并从基于与该目标视频相似的多源视频的视频内容文本和视频评论文本构建的多源词库中获取到若干个纠正候选,将这些纠正候选输入至上述构建的通用语言模型、多源视频内容语言模型、多源视频评论语言模型,计算出每个纠正候选的综合语言模型概率。获取到纠正候选“演技”的综合语言模型概率最高,将其作为目标词用于替换待纠正词“眼疾”,故原目标评论“这位演员的眼疾太好了!”经过文本识别与纠正之后替换为“这位演员的演技太好了!”。
步骤405:将待纠正词替换为目标词。
电子设备在检测得到目标评论中的待纠正词,并获取与该待纠正词对应的目标词之后,将该待纠正词替换为该目标词。
本申请实施例通过综合利用当前短视频内容及整体评论、与当前短视频相似的其他多源视频内容及评论数据,对当前短视频的评论进行自动错误纠正,可以提高评论中错误纠正的准确率,提高纠正效率。
上述详细阐述了本申请实施例的方法,下面提供本申请实施例的装置。
请参阅图6,图6为本申请实施例提供的一种文本处理装置的结构示意图,该文本处理装置60可以包括获取单元601以及检测单元602,其中,各个单元的描述如下:
获取单元601,用于获取目标视频的目标评论;所述目标评论为用户对所述目标视频发布的评论;
检测单元602,用于检测得到所述目标评论中的待纠正词;所述待纠正词为所述目标评论中似然度较低的词,所述待纠正词的似然度基于将所述待纠正词输入至语言模型中得到,所述语言模型基于候选视频的信息训练得到,所述候选视频包括视频库中与所述目标视频相似度较高的视频。
在本申请实施例中,提供了一种针对于视频评论文本的错误识别方法。具体为,获取用户对目标视频发布的目标评论,然后将目标评论输入至语言模型中,得到目标评论中每个词的似然度,将目标评论中似然度较低的词作为该目标评论的待纠正词。可以理解的是,目标评论中较低的似然度,只要是比最高的似然度低的,都可以认为是较低的似然度。也可以理解为只要低于某个阈值的似然度,就可以认为是较低的似然度,如低于平均值等,该阈值并不是一个固定的值,可以根据不同的应用场景而不同。可以看出,上述待纠正词的似然度是基于将待纠正词输入至语言模型中得到的,该语言模型又是基于候选视频的信息训练得到,此处的候选视频包括视频库中与上述目标视频相似度较高的视频。
本申请实施例通过综合利用当前短视频内容及整体评论、与当前短视频相似的其他多源视频内容及评论数据,对当前短视频的评论进行自动错误识别,可以提高评论中错误的识别率,提高识别效率。
在一种可能的实施方式中,所述装置还包括:
所述获取单元601,还用于获取所述待纠正词对应的目标词;所述目标词的似然度大于所述待纠正词的似然度,所述目标词的似然度基于将所述目标词输入至所述语言模型中得到;
纠正单元603,用于将所述待纠正词替换为所述目标词。
在本申请实施例中,提供了一种针对于视频评论文本中的待纠正词的纠正方法。具体为,在检测得到目标评论中的待纠正词之后,获取与该待纠正词对应的目标词,然后将该待纠正词替换为该目标词。其中,目标词的似然度大于待纠正词的似然度,如此可以达到对视频评论文本错误识别并纠正的目的,且目标词的似然度是通过将目标词输入至语言模型中得到,该语言模型又是基于候选视频的信息训练得到,此处的候选视频包括视频库中与上述目标视频相似度较高的视频。
本申请实施例通过综合利用当前短视频内容及整体评论、与当前短视频相似的其他多源视频内容及评论数据,对当前短视频的评论进行自动错误纠正,可以提高评论中错误纠正的准确率,提高纠正效率。
在一种可能的实施方式中,所述检测单元602,具体用于将所述目标评论输入至所述语言模型中,得到所述目标评论中的第一词的似然度;
所述检测单元602,具体还用于在所述第一词的似然度小于第一阈值的情况下,将所述第一词作为所述待纠正词。
在本申请实施例中,提供了一种检测目标评论中的待纠正词的具体实施方式。将目标评论输入至上述语言模型中,可以得到目标评论中各个词的似然度,比如得到目标评论中第一词的似然度,在该第一词的似然度小于第一阈值的情况下,将该第一词作为目标评论中的待纠正词。其中,上述第一阈值不是一个固定的值,可以根据不同的应用场景而不同。通过本申请实施例,可以提高评论中待纠正词识别的准确率及效率。
在一种可能的实施方式中,所述语言模型包括第一语言模型和第二语言模型,所述候选视频的信息包括所述候选视频的视频内容文本和所述候选视频的评论内容文本;所述第一语言模型基于所述候选视频的视频内容文本训练得到,所述第二语言模型基于所述候选视频的评论内容文本训练得到;
所述检测单元602,具体用于将所述目标评论输入至所述第一语言模型中,得到所述第一词的第一概率;
所述检测单元602,具体还用于将所述目标评论输入至所述第二语言模型中,得到所述第一词的第二概率;
所述检测单元602,具体还用于将所述第一概率和所述第二概率加权求和的结果,作为所述第一词的似然度。
在本申请实施例中,提供了一种检测词组似然度的具体实施方式。具体的,上述语言模型包括第一语言模型和第二语言模型,上述候选视频信息包括与目标视频相似度较高的候选视频的视频内容文本和候选视频的评论内容文本,基于候选视频的视频内容文本可以训练得到第一语言模型,基于候选视频的评论内容文本可以得到第二语言模型。将目标评论输入至上述第一语言模型和第二语言模型中,可以分别得到目标评论中各个词的似然度,比如,将目标评论输入至第一语言模型中,得到目标评论中第一词的第一概率,该第一概率表征第一语言模型识别第一词在目标评论中为待纠正词的概率;将目标评论输入至第二语言模型中,得到目标评论中第一词的第二概率,该第二概率表征第二语言模型识别第一词在目标评论中为待纠正词的概率。再将上述第一概率和第二概率加权求和的结果,作为第一词的似然度。通过本申请实施例,可以提高目标评论中词组似然度的检测准确率,从而提高评论中待纠正词识别的准确率及效率。
在一种可能的实施方式中,所述获取单元601,具体用于获取词库中与所述待纠正词相似度较大的第二词;所述词库基于所述候选视频的信息得到;
所述检测单元602,具体用于将所述待纠正词被所述第二词替换后的所述目标评论输入至所述语言模型中,得到所述第二词的似然度;
所述检测单元602,具体还用于在所述第二词的似然度大于第二阈值的情况下,将所述第二词作为所述目标词。
在本申请实施例中,提供了一种获取得到待纠正词对应的目标词的具体实施方式。具体为,基于上述候选视频的信息可以得到词库,从该词库中获取与待纠正词相似度较大的第二词,可以理解的是,词库中与待纠正词较大的相似度,只要是比最低的相似度高的,都可以认为是较大的相似度。也可以理解为只要大于某个阈值的相似度,就可以认为是较大的相似度,如大于平均值等,该阈值并不是一个固定的值,可以根据不同的应用场景而不同。在从词库中获取得到第二词之后,将上述待纠正词被第二词替换后的目标评论输入至语言模型中,得到该第二词的似然度。在第二词的似然度大于第二阈值的情况下,将该第二词作为目标词,用于替换目标评论中的待纠正词。其中,上述第二阈值不是一个固定的值,可以根据不同的应用场景而不同。通过本申请实施例,可以提高获取待纠正词对应的目标词的准确率及效率,从而提高评论中错误纠正的准确率及效率。
在一种可能的实施方式中,所述检测单元602,具体用于将所述词库中与所述待纠正词的拼音相似度和笔画相似度的加权值大于第三阈值的词,作为所述第二词。
在本申请实施例中,提供了一种获取词库中的第二词与待纠正词之间相似度的具体实施方式。具体为,将词库中与上述待纠正词的拼音相似度和笔画相似度的加权值大于第三阈值的词,作为第二词。可以通过调整二者权重,仅以拼音相似度较大的词,作为第二词;或者,仅以笔画相似度较大的词,作为第二词;或者,综合考虑拼音相似度和笔画相似度较大的词,作为第二词。其中,上述第三阈值不是一个固定的值,可以根据不同的应用场景而不同。通过本申请实施例,可以提高词库中第二词与待纠正词之间相似度的检测准确率,从而提高获取待纠正词对应的目标词的准确率及效率,提高评论中错误纠正的准确率及效率。
在一种可能的实施方式中,所述检测单元602,具体还用于将所述词库中与所述待纠正词的拼音或笔画的相似度大于第三阈值的词,作为所述第二词。
在一种可能的实施方式中,所述候选视频为所述视频库中与所述目标视频相似度大于第四阈值的视频。
在本申请实施例中,候选视频信息包括与目标视频相似度较高的候选视频的视频内容文本和候选视频的评论内容文本。可以理解的是,视频库中视频的文本内容或图像内容与目标视频相似度较高的候选视频,视频库中与目标视频的文本内容或图像内容较高的相似度,只要是比最低的相似度高的,都可以认为是较高的相似度,也可以理解为只要高于某个阈值的相似度,就可以认为是较高的相似度,如高于平均值等。具体的,将视频库中与目标视频的文本内容或图像内容的相似度大于第四阈值的视频,作为候选视频,用于训练得到文本识别与纠错中所需的语言模型。其中,上述第四阈值并不是一个固定的值,可以根据不同的应用场景而不同。通过本申请实施例,可以使获得的候选视频与目标视频更相似,从而基于候选视频的信息训练得到的语言模型对目标视频中的待纠正词的识别准确率及纠正效率更高。
在一种可能的实施方式中,所述语言模型包括第一语言模型和第二语言模型,所述候选视频的信息包括所述候选视频的视频内容文本和所述候选视频的评论内容文本;所述第一语言模型基于所述候选视频的视频内容文本训练得到,所述第二语言模型基于所述候选视频的评论内容文本训练得到;
所述检测单元602,具体用于将所述待纠正词被所述第二词替换后的所述目标评论输入至所述第一语言模型中,得到所述第二词的第三概率;
所述检测单元602,具体还用于将所述待纠正词被所述第二词替换后的所述目标评论输入至所述第二语言模型中,得到所述第二词的第四概率;
所述检测单元602,具体还用于将所述第三概率和所述第四概率加权求和的结果,或者,将所述第三概率、所述第四概率以及所述相似度加权求和的结果,作为所述第二词的似然度。
在本申请实施例中,提供了一种检测词组似然度的具体实施方式。具体的,上述语言模型包括第一语言模型和第二语言模型,上述候选视频信息包括与目标视频相似度较高的候选视频的视频内容文本和候选视频的评论内容文本,基于候选视频的视频内容文本可以训练得到第一语言模型,基于候选视频的评论内容文本可以得到第二语言模型。将上述待纠正词被第二词替换后的目标评论输入至上述第一语言模型和第二语言模型中,可以分别得到目标评论中第二词的似然度,比如,将上述待纠正词被第二词替换后的目标评论输入至第一语言模型中,得到目标评论中第二词的第三概率,该第三概率表征第一语言模型识别第二词在目标评论中可能出现的概率;将上述待纠正词被第二词替换后的目标评论输入至第二语言模型中,得到目标评论中第二词的第四概率,该第四概率表征第二语言模型识别第二词在目标评论中可能出现的概率。再将上述第三概率和第四概率加权求和的结果,作为第二词的似然度。或者,将上述第三概率、第四概率、以及第二词与待纠正词之间的相似度加权求和的结果,作为第二词的似然度。通过本申请实施例,可以提高词库中第二词似然度的检测准确率,从而提高获取待纠正词对应的目标词的准确率及效率,提高评论中错误纠正的准确率及效率。
根据本申请实施例,图6所示的装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,基于网络设备也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
需要说明的是,各个单元的实现还可以对应参照上述图2、图4所示的方法实施例的相应描述。
在图6所描述的文本处理装置60中,通过综合利用当前短视频内容及整体评论、与当前短视频相似的其他多源视频内容及评论数据,对当前短视频的评论进行自动错误识别与纠正,可以提高评论中错误的识别率及纠正的准确率,提高识别与纠正效率。
请参阅图7,图7为本申请实施例提供的一种电子设备70的结构示意图。该电子设备70可以包括存储器701、处理器702。进一步可选的,还可以包含通信接口703以及总线704,其中,存储器701、处理器702以及通信接口703通过总线704实现彼此之间的通信连接。通信接口703用于与上述文本处理装置60进行数据交互。
其中,存储器701用于提供存储空间,存储空间中可以存储操作系统和计算机程序等数据。存储器701包括但不限于是随机存储记忆体(random access memory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasable programmable readonly memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM)。
处理器702是进行算术运算和逻辑运算的模块,可以是中央处理器(centralprocessing unit,CPU)、显卡处理器(graphics processing unit,GPU)或微处理器(microprocessor unit,MPU)等处理模块中的一种或者多种的组合。
存储器701中存储有计算机程序,处理器702调用存储器701中存储的计算机程序,以执行上述图2、图4所示的文本处理方法:
获取目标视频的目标评论;所述目标评论为用户对所述目标视频发布的评论;
检测得到所述目标评论中的待纠正词;所述待纠正词为所述目标评论中似然度较低的词,所述待纠正词的似然度基于将所述待纠正词输入至语言模型中得到,所述语言模型基于候选视频的信息训练得到,所述候选视频包括视频库中与所述目标视频相似度较高的视频。
上述处理器702执行方法的具体内容可参阅上述图2、图4,此处不再赘述。
相应的,处理器702调用存储器701中存储的计算机程序,还可以用于执行上述图6所示的文本处理装置60中的各个单元所执行的方法步骤,其具体内容可参阅上述图6,此处不再赘述。
在图7所描述的电子设备70中,通过综合利用当前短视频内容及整体评论、与当前短视频相似的其他多源视频内容及评论数据,对当前短视频的评论进行自动错误识别与纠正,可以提高评论中错误的识别率及纠正的准确率,提高识别与纠正效率。
本申请实施例还提供一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机程序,当上述计算机程序在一个或多个处理器上运行时,可以实现上述图2、图4所示的方法。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括计算机程序,当上述计算机程序产品在处理器上运行时,可以实现上述图2、图4所示的方法。
本申请实施例还提供一种芯片,该芯片包括处理器,所述处理器用于执行指令,当该处理器执行所述指令时,可以实现上述图2、图4所示的方法。可选的,该芯片还包括通信接口,该通信接口用于输入信号或输出信号。
本申请实施例还提供了一种系统,该系统包括了至少一个如上述文本处理装置60或电子设备70或芯片。
综上上述,通过综合利用当前短视频内容及整体评论、与当前短视频相似的其他多源视频内容及评论数据,对当前短视频的评论进行自动错误识别与纠正,可以提高评论中错误的识别率及纠正的准确率,提高识别与纠正效率。
此外,本申请实施例还可以应用于区块链领域中,下面将介绍一些与本申请实施例中文本处理方法相关的区块链知识。
参见图8a所示的数据共享系统,数据共享系统100是指用于进行节点与节点之间数据共享的系统,该数据共享系统中可以包括多个节点101,多个节点101可以是指数据共享系统中各个客户端。每个节点101在进行正常工作可以接收到输入信息,并基于接收到的输入信息维护该数据共享系统内的共享数据。为了保证数据共享系统内的信息互通,数据共享系统中的每个节点之间可以存在信息连接,节点之间可以通过上述信息连接进行信息传输。例如,当数据共享系统中的任意节点接收到输入信息时,数据共享系统中的其他节点便根据共识算法获取该输入信息,将该输入信息作为共享数据中的数据进行存储,使得数据共享系统中全部节点上存储的数据均一致。
在本申请实施例中,数据共享系统为一种文本处理系统,上述文本处理方法中的目标视频、候选视频、以及视频的文本信息等可以存储在区块节点中,并且,上述文本处理方法也可以由数据共享系统中的节点执行。
对于数据共享系统中的每个节点,均具有与其对应的节点标识,而且数据共享系统中的每个节点均可以存储有数据共享系统中其他节点的节点标识,以便后续根据其他节点的节点标识,将生成的区块广播至数据共享系统中的其他节点。每个节点中可维护一个如下表所示的节点标识列表,将节点名称和节点标识对应存储至该节点标识列表中。其中,节点标识可为IP(Internet Protocol,网络之间互联的协议)地址以及其他任一种能够用于标识该节点的信息,下表中仅以IP地址为例进行说明。
节点名称节点标识
节点1 117.114.151.174
节点2 117.116.189.145
……
节点N 119.123.789.258
数据共享系统中各节点的功能,涉及的功能包括:
1)路由,节点具有的基本功能,用于支持节点之间的通信。
节点除具有路由功能外,还可以具有以下功能:
2)应用,用于部署在区块链中,根据实际业务需求而实现特定业务,记录实现功能相关的数据形成记录数据,在记录数据中携带数字签名以表示任务数据的来源,将记录数据发送到区块链系统中的其他节点,供其他节点在验证记录数据来源以及完整性成功时,将记录数据添加到临时区块中。
例如,应用实现的业务包括:
2.1)钱包,用于提供进行电子货币的交易的功能,包括发起交易(即,将当前交易的交易记录发送给区块链系统中的其他节点,其他节点验证成功后,作为承认交易有效的响应,将交易的记录数据存入区块链的临时区块中;当然,钱包还支持查询电子货币地址中剩余的电子货币;
2.2)共享账本,用于提供账目数据的存储、查询和修改等操作的功能,将对账目数据的操作的记录数据发送到区块链系统中的其他节点,其他节点验证有效后,作为承认账目数据有效的响应,将记录数据存入临时区块中,还可以向发起操作的节点发送确认。
2.3)智能合约,计算机化的协议,可以执行某个合约的条款,通过部署在共享账本上的用于在满足一定条件时而执行的代码实现,根据实际的业务需求代码用于完成自动化的交易,例如查询买家所购买商品的物流状态,在买家签收货物后将买家的电子货币转移到商户的地址;当然,智能合约不仅限于执行用于交易的合约,还可以执行对接收的信息进行处理的合约。
3)区块链,包括一系列按照产生的先后时间顺序相互接续的区块(block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链系统中节点提交的记录数据。
数据共享系统中的每个节点均存储一条相同的区块链。区块链由多个区块组成,参见图8b,区块链由多个区块组成,创始块中包括区块头和区块主体,区块头中存储有输入信息特征值、版本号、时间戳和难度值,区块主体中存储有输入信息;创始块的下一区块以创始块为父区块,下一区块中同样包括区块头和区块主体,区块头中存储有当前区块的输入信息特征值、父区块的区块头特征值、版本号、时间戳和难度值,并以此类推,使得区块链中每个区块中存储的区块数据均与父区块中存储的区块数据存在关联,保证了区块中输入信息的安全性。
在生成区块链中的各个区块时,参见图8c,区块链所在的节点在接收到输入信息时,对输入信息进行校验,完成校验后,将输入信息存储至内存池中,并更新其用于记录输入信息的哈希树;之后,将更新时间戳更新为接收到输入信息的时间,并尝试不同的随机数,多次进行特征值计算,使得计算得到的特征值可以满足下述公式:
SHA256(SHA256(version+prev_hash+merkle_root+ntime+nbits+x))<TARGET
其中,SHA256为计算特征值所用的特征值算法;版本号(version)为区块链中相关区块协议的版本信息;prev_hash为当前区块的父区块的区块头特征值;merkle_root为输入信息的特征值;ntime为更新时间戳的更新时间;nbits为当前难度,在一段时间内为定值,并在超出固定时间段后再次进行确定;x为随机数;TARGET为特征值阈值,该特征值阈值可以根据nbits确定得到。
这样,当计算得到满足上述公式的随机数时,便可将信息对应存储,生成区块头和区块主体,得到当前区块。随后,区块链所在节点根据数据共享系统中其他节点的节点标识,将新生成的区块分别发送给其所在的数据共享系统中的其他节点,由其他节点对新生成的区块进行校验,并在完成校验后将新生成的区块添加至其存储的区块链中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序相关的硬件完成,该计算机程序可存储于计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:只读存储器ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储计算机程序代码的介质。
Claims (10)
1.一种文本处理方法,其特征在于,包括:
获取目标视频的目标评论;所述目标评论为用户对所述目标视频发布的评论;
检测得到所述目标评论中的待纠正词;所述待纠正词为所述目标评论中似然度较低的词,所述待纠正词的似然度基于将所述待纠正词输入至语言模型中得到,所述语言模型基于候选视频的信息训练得到,所述候选视频包括视频库中与所述目标视频相似度较高的视频。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取所述待纠正词对应的目标词;所述目标词的似然度大于所述待纠正词的似然度,所述目标词的似然度基于将所述目标词输入至所述语言模型中得到;
将所述待纠正词替换为所述目标词。
3.根据权利要求1或2所述的方法,其特征在于,所述检测得到所述目标评论中的待纠正词,包括:
将所述目标评论输入至所述语言模型中,得到所述目标评论中的第一词的似然度;
在所述第一词的似然度小于第一阈值的情况下,将所述第一词作为所述待纠正词。
4.根据权利要求3所述的方法,其特征在于,所述语言模型包括第一语言模型和第二语言模型,所述候选视频的信息包括所述候选视频的视频内容文本和所述候选视频的评论内容文本;所述第一语言模型基于所述候选视频的视频内容文本训练得到,所述第二语言模型基于所述候选视频的评论内容文本训练得到;
所述将所述目标评论输入至所述语言模型中,得到所述目标评论中的第一词的似然度,包括:
将所述目标评论输入至所述第一语言模型中,得到所述第一词的第一概率;
将所述目标评论输入至所述第二语言模型中,得到所述第一词的第二概率;
将所述第一概率和所述第二概率加权求和的结果,作为所述第一词的似然度。
5.根据权利要求2所述的方法,其特征在于,所述获取所述待纠正词对应的目标词,包括:
获取词库中与所述待纠正词相似度较大的第二词;所述词库基于所述候选视频的信息得到;
将所述待纠正词被所述第二词替换后的所述目标评论输入至所述语言模型中,得到所述第二词的似然度;
在所述第二词的似然度大于第二阈值的情况下,将所述第二词作为所述目标词。
6.根据权利要求5所述的方法,其特征在于,所述获取词库中与所述待纠正词相似度较大的第二词,包括:
将所述词库中与所述待纠正词的拼音相似度和笔画相似度的加权值大于第三阈值的词,作为所述第二词。
7.根据权利要求5所述的方法,其特征在于,所述获取词库中与所述待纠正词相似度较大的第二词,包括:
将所述词库中与所述待纠正词的拼音或笔画的相似度大于第三阈值的词,作为所述第二词。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述候选视频为所述视频库中与所述目标视频相似度大于第四阈值的视频。
9.一种文本处理装置,其特征在于,包括:
获取单元,用于获取目标视频的目标评论;所述目标评论为用户对所述目标视频发布的评论;
检测单元,用于检测得到所述目标评论中的待纠正词;所述待纠正词为所述目标评论中似然度较低的词,所述待纠正词的似然度基于将所述待纠正词输入至语言模型中得到,所述语言模型基于候选视频的信息训练得到,所述候选视频包括视频库中与所述目标视频相似度较高的视频。
10.一种电子设备,其特征在于,包括:处理器和存储器;
所述存储器用于存储计算机执行指令;
所述处理器用于执行所述存储器所存储的计算机执行指令,以使所述电子设备执行如权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110714159.XA CN113822056A (zh) | 2021-06-25 | 2021-06-25 | 文本处理方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110714159.XA CN113822056A (zh) | 2021-06-25 | 2021-06-25 | 文本处理方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113822056A true CN113822056A (zh) | 2021-12-21 |
Family
ID=78924078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110714159.XA Pending CN113822056A (zh) | 2021-06-25 | 2021-06-25 | 文本处理方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113822056A (zh) |
-
2021
- 2021-06-25 CN CN202110714159.XA patent/CN113822056A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3926531B1 (en) | Method and system for visio-linguistic understanding using contextual language model reasoners | |
CN112988979B (zh) | 实体识别方法、装置、计算机可读介质及电子设备 | |
CN111461174A (zh) | 多层次注意力机制的多模态标签推荐模型构建方法及装置 | |
US20240152770A1 (en) | Neural network search method and related device | |
CN117033609B (zh) | 文本视觉问答方法、装置、计算机设备和存储介质 | |
CN117114063A (zh) | 用于训练生成式大语言模型和用于处理图像任务的方法 | |
CN114219971B (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN117746467B (zh) | 一种模态增强和补偿的跨模态行人重识别方法 | |
CN116975350A (zh) | 图文检索方法、装置、设备及存储介质 | |
CN113392179A (zh) | 文本标注方法及装置、电子设备、存储介质 | |
CN115223020A (zh) | 图像处理方法、装置、电子设备以及可读存储介质 | |
CN111324773A (zh) | 一种背景音乐构建方法、装置、电子设备和存储介质 | |
CN113515669A (zh) | 基于人工智能的数据处理方法和相关设备 | |
CN116955707A (zh) | 内容标签的确定方法、装置、设备、介质及程序产品 | |
CN118035945B (zh) | 一种标签识别模型的处理方法和相关装置 | |
CN113095072B (zh) | 文本处理方法及装置 | |
CN116955591A (zh) | 用于内容推荐的推荐语生成方法、相关装置和介质 | |
CN114330476A (zh) | 用于媒体内容识别的模型训练方法及媒体内容识别方法 | |
CN117473057A (zh) | 问答处理方法、系统、设备和存储介质 | |
Perdana et al. | Instance-based deep transfer learning on cross-domain image captioning | |
CN114357203B (zh) | 多媒体检索方法、装置及计算机设备 | |
CN115759262A (zh) | 基于知识感知注意力网络的视觉常识推理方法及系统 | |
CN113822056A (zh) | 文本处理方法及相关装置 | |
CN114238587A (zh) | 阅读理解方法、装置、存储介质及计算机设备 | |
CN113568983A (zh) | 场景图生成方法、装置、计算机可读介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20221122 Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518133 Applicant after: Shenzhen Yayue Technology Co.,Ltd. Address before: Room 1601-1608, Floor 16, Yinke Building, 38 Haidian Street, Haidian District, Beijing Applicant before: Tencent Technology (Beijing) Co.,Ltd. |
|
TA01 | Transfer of patent application right |