CN113066478A - 基于模型训练的方言识别系统 - Google Patents
基于模型训练的方言识别系统 Download PDFInfo
- Publication number
- CN113066478A CN113066478A CN202011413451.XA CN202011413451A CN113066478A CN 113066478 A CN113066478 A CN 113066478A CN 202011413451 A CN202011413451 A CN 202011413451A CN 113066478 A CN113066478 A CN 113066478A
- Authority
- CN
- China
- Prior art keywords
- playing
- film
- dialect
- training
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000003062 neural network model Methods 0.000 claims abstract description 30
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 8
- 230000006870 function Effects 0.000 description 10
- 238000000034 method Methods 0.000 description 5
- 208000003443 Unconsciousness Diseases 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明涉及一种基于模型训练的方言识别系统,包括:智能识别机构,用于从处理后的所有字符中随机选择与径向神经网络模型的输入层的输入数据个数相等的多个字符作为径向神经网络模型的输入层的输入数据,采用所述径向神经网络模型对所述目标播放影片的所属语言类型和所属方言类型进行识别,以分别获得当前语言类型和当前方言类型;模型训练设备,与所述智能识别机构连接,对所述径向神经网络模型进行训练。本发明的基于模型训练的方言识别系统结构紧凑、方便使用。由于采用了人工智能模式对每一个播放影片所属语言类型和所属地区方言进行现场辨识,从而避免审片方陷入冗长的审片任务中。
Description
技术领域
本发明涉及人工智能领域,尤其涉及一种基于模型训练的方言识别系统。
背景技术
人工智能的定义可以分为两部分,即“人工”和“智能”。“人工”比较好理解,争议性也不大。有时我们会要考虑什么是人力所能及制造的,或者人自身的智能程度有没有高到可以创造人工智能的地步,等等。但总的来说,“人工系统”就是通常意义下的人工系统。
关于什么是“智能”,就问题多多了。这涉及到其它诸如意识(CONSCIOUSNESS)、自我(SELF)、思维(MIND)(包括无意识的思维(UNCONSCIOUS_MIND))等等问题。人唯一了解的智能是人本身的智能,这是普遍认同的观点。但是我们对我们自身智能的理解都非常有限,对构成人的智能的必要元素也了解有限,所以就很难定义什么是“人工”制造的“智能”了。因此人工智能的研究往往涉及对人的智能本身的研究。其它关于动物或其它人造系统的智能也普遍被认为是人工智能相关的研究课题。
人工智能在计算机领域内,得到了愈加广泛的重视。并在机器人,经济政治决策,控制系统,仿真系统中得到应用。
目前,在审片方进行审片过程中,由于待审的影片文件非常多,而审片人员有限,如果采用人工模式对每一个待审的影片文件进行播放和肉眼识别各种相关参数,显然会陷入到冗长、繁琐的审片过程中,因此,需要一种智能化解决方案以替换上述人工模式,提升审片的效率和速度。
发明内容
为了解决相关领域的技术问题,本发明提供了一种基于模型训练的方言识别系统,能够在基于影片内容的自适应模型训练机制的基础上,采用径向神经网络模型对每一个播放影片所属语言类型和所属地区方言进行现场辨识,从而为执行繁琐审片任务的审片方节约大量时间。
为此,本发明至少需要具备以下两处关键的发明点:
(1)采用径向神经网络模型对每一个播放影片所属语言类型和所属地区方言进行现场辨识,从而提升审片效率和速度;
(2)采用定制模型训练机制对径向神经网络模型训练,所述训练机制基于当前播放影片的字符数据自适应修正,从而提升模型训练的效果。
根据本发明的一方面,提供了一种基于模型训练的方言识别系统,所述系统包括:
帧率检测机构,与当前播放状态下的影片播放机构连接,用于对所述影片播放机构的播放帧率进行检测,以获得现场播放帧率。
本发明的基于模型训练的方言识别系统结构紧凑、方便使用。由于采用了人工智能模式对每一个播放影片所属语言类型和所属地区方言进行现场辨识,从而避免审片方陷入冗长的审片任务中。
具体实施方式
下面将对本发明的基于模型训练的方言识别系统的实施方案进行详细说明。
方言(英文:topolect、dialect)一词最早出自汉扬雄(前53—18)的《輶轩使者绝代语释别国方言》一书。“方言”在不同的人群中指代不同,中国人口中所称“方言(Topolect)”是一个政治学概念,实为“地方语言”,又称“白话(Vernacular)”、“土话”或“土音”,指的是区别于标准语的某一地区的语言,这种叫法不考虑语言间的亲属关系。
欧洲人口中的“方言(Dialect)”是一个语言学概念,指的是十八世纪后开始普遍称呼的位于“语言(language)”下一级的“方言”,它根据语言之间的亲属关系(发音、词汇、语法)划分出语系(family)、语族(group)、语支(branch)和语言(language),位于语言下的则是方言(dialect),考虑到中国的特殊情况,“汉语方言”翻译成英文则是“Varieties ofChinese”。
根据欧洲人的理解,一种语言中跟标准语有区别的、只通行于一个地区的语言,那就是方言。
目前,在审片方进行审片过程中,由于待审的影片文件非常多,而审片人员有限,如果采用人工模式对每一个待审的影片文件进行播放和肉眼识别各种相关参数,显然会陷入到冗长、繁琐的审片过程中,因此,需要一种智能化解决方案以替换上述人工模式,提升审片的效率和速度。
为了克服上述不足,本发明搭建了一种基于模型训练的方言识别系统,能够有效解决相应的技术问题。
根据本发明实施方案示出的基于模型训练的方言识别系统包括:
帧率检测机构,与当前播放状态下的影片播放机构连接,用于对所述影片播放机构的播放帧率进行检测,以获得现场播放帧率。
接着,继续对本发明的基于模型训练的方言识别系统的具体结构进行进一步的说明。
所述基于模型训练的方言识别系统中还可以包括:
影片播放机构,用于获取目标播放影片,并按照所述目标播放影片的设定帧率对所述目标播放影片进行播放。
所述基于模型训练的方言识别系统中还可以包括:
信息抓取设备,与所述帧率检测机构连接,用于基于接收到的现场播放帧率调节抓取播放画面的持续时长以获得各个抓取画面。
所述基于模型训练的方言识别系统中还可以包括:
内容提取设备,与所述信息抓取设备连接,用于对每一个抓取画面进行字符识别以获得对应的一个或多个字符,并将各个抓取画面被字符识别到的所有字符组成一个字符集合;
预处理机构,与所述内容提取设备连接,用于对接收到的字符集合中的每一个字符进行预处理以使得所述处理后的所有字符占据的比特位相等;
智能识别机构,与所述预处理机构连接,用于从所述处理后的所有字符中随机选择与径向神经网络模型的输入层的输入数据个数相等的多个字符作为径向神经网络模型的输入层的输入数据,采用所述径向神经网络模型对所述目标播放影片的所属语言类型和所属方言类型进行识别,以分别获得当前语言类型和当前方言类型;
模型训练设备,与所述智能识别机构连接,对所述径向神经网络模型进行训练,所述径向神经网络模型的输出层的输出数据有两个,分别为语言类型和方言类型;
其中,对所述径向神经网络模型进行训练包括:采用已知语言类型和已知方言类型的多个字符作为参考字符输入到所述径向神经网络模型进行训练;
其中,已知语言类型和已知方言类型的多个字符中,每一个字符占据的比特位等于所述参考比特位数;
其中,已知语言类型和已知方言类型的多个字符的数量等于径向神经网络模型的输入层的输入数据个数;
其中,所述模型训练设备在所述智能识别机构之前动作以完成所述径向神经网络模型的训练;
其中,所述智能识别机构使用的所述径向神经网络模型为所述模型训练设备训练后的径向神经网络模型;
其中,对接收到的字符集合中的每一个字符进行预处理以使得所述处理后的所有字符占据的比特位相等包括:将接收到的字符集合中占据比特位最多的字符占据的比特位作为参考比特位数,对接收到的字符集合中的每一个字符进行预处理以使得所述处理后的所有字符占据的比特位数等于所述参考比特位数;
其中,对接收到的字符集合中的每一个字符进行预处理以使得所述处理后的所有字符占据的比特位数等于所述参考比特位数包括:当某一个字符占据的比特位数小于所述参考比特位数时,对其进行高位补零以使得其占据的比特位数等于所述参考比特位数。
所述基于模型训练的方言识别系统中:
基于接收到的现场播放帧率调节抓取播放画面的持续时长以获得各个抓取画面包括:调节后的抓取播放画面的持续时长与接收到的现场播放帧率成反向关系。
所述基于模型训练的方言识别系统中:
所述信息抓取设备为现场截屏设备、视频缓存设备或者现场摄像设备中的一种。
所述基于模型训练的方言识别系统中还可以包括:
影片存储设备,采用文件数据库的模式保存每一个待播放影片对应的文件数据。
所述基于模型训练的方言识别系统中还可以包括:
用户设定机构,与所述影片播放机构连接,用于在播放人员的调控下,修正对所述影片播放机构的播放帧率。
所述基于模型训练的方言识别系统中:
在播放人员的调控下,修正对所述影片播放机构的播放帧率包括:修正后的影片播放机构的播放帧率为所述目标播放影片的设定帧率的倍数。
另外,所述基于模型训练的方言识别系统中,径向神经网络模型所使用的径向基函数是一个取值仅仅依赖于离原点距离的实值函数,也就是Φ(x)=Φ(‖x‖),或者还可以是到任意一点c的距离,c点称为中心点,也就是Φ(x,c)=Φ(‖x-c‖)。任意一个满足Φ(x)=Φ(‖x‖)特性的函数Φ都叫做径向基函数,标准的一般使用欧氏距离(也叫做欧式径向基函数),尽管其他距离函数也是可以的。最常用的径向基函数是高斯核函数 ,形式为 k(||x-xc||)=exp{- ||x-xc||^2/(2*σ)^2) } 其中x_c为核函数中心,σ为函数的宽度参数 , 控制了函数的径向作用范围。
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围,其均应涵盖在本公开的权利要求和说明书的范围当中。
Claims (9)
1.一种基于模型训练的方言识别系统,其特征在于,所述系统包括:
帧率检测机构,与当前播放状态下的影片播放机构连接,用于对所述影片播放机构的播放帧率进行检测,以获得现场播放帧率。
2.如权利要求1所述的基于模型训练的方言识别系统,其特征在于,所述系统还包括:
影片播放机构,用于获取目标播放影片,并按照所述目标播放影片的设定帧率对所述目标播放影片进行播放。
3.如权利要求2所述的基于模型训练的方言识别系统,其特征在于,所述系统还包括:
信息抓取设备,与所述帧率检测机构连接,用于基于接收到的现场播放帧率调节抓取播放画面的持续时长以获得各个抓取画面。
4.如权利要求3所述的基于模型训练的方言识别系统,其特征在于,所述系统还包括:
内容提取设备,与所述信息抓取设备连接,用于对每一个抓取画面进行字符识别以获得对应的一个或多个字符,并将各个抓取画面被字符识别到的所有字符组成一个字符集合;
预处理机构,与所述内容提取设备连接,用于对接收到的字符集合中的每一个字符进行预处理以使得所述处理后的所有字符占据的比特位相等;
智能识别机构,与所述预处理机构连接,用于从所述处理后的所有字符中随机选择与径向神经网络模型的输入层的输入数据个数相等的多个字符作为径向神经网络模型的输入层的输入数据,采用所述径向神经网络模型对所述目标播放影片的所属语言类型和所属方言类型进行识别,以分别获得当前语言类型和当前方言类型;
模型训练设备,与所述智能识别机构连接,对所述径向神经网络模型进行训练,所述径向神经网络模型的输出层的输出数据有两个,分别为语言类型和方言类型;
其中,对所述径向神经网络模型进行训练包括:采用已知语言类型和已知方言类型的多个字符作为参考字符输入到所述径向神经网络模型进行训练;
其中,已知语言类型和已知方言类型的多个字符中,每一个字符占据的比特位等于所述参考比特位数;
其中,已知语言类型和已知方言类型的多个字符的数量等于径向神经网络模型的输入层的输入数据个数;
其中,所述模型训练设备在所述智能识别机构之前动作以完成所述径向神经网络模型的训练;
其中,所述智能识别机构使用的所述径向神经网络模型为所述模型训练设备训练后的径向神经网络模型;
其中,对接收到的字符集合中的每一个字符进行预处理以使得所述处理后的所有字符占据的比特位相等包括:将接收到的字符集合中占据比特位最多的字符占据的比特位作为参考比特位数,对接收到的字符集合中的每一个字符进行预处理以使得所述处理后的所有字符占据的比特位数等于所述参考比特位数;
其中,对接收到的字符集合中的每一个字符进行预处理以使得所述处理后的所有字符占据的比特位数等于所述参考比特位数包括:当某一个字符占据的比特位数小于所述参考比特位数时,对其进行高位补零以使得其占据的比特位数等于所述参考比特位数。
5.如权利要求4所述的基于模型训练的方言识别系统,其特征在于:
基于接收到的现场播放帧率调节抓取播放画面的持续时长以获得各个抓取画面包括:调节后的抓取播放画面的持续时长与接收到的现场播放帧率成反向关系。
6.如权利要求5所述的基于模型训练的方言识别系统,其特征在于:
所述信息抓取设备为现场截屏设备、视频缓存设备或者现场摄像设备中的一种。
7.如权利要求6所述的基于模型训练的方言识别系统,其特征在于,所述系统还包括:
影片存储设备,采用文件数据库的模式保存每一个待播放影片对应的文件数据。
8.如权利要求7所述的基于模型训练的方言识别系统,其特征在于,所述系统还包括:
用户设定机构,与所述影片播放机构连接,用于在播放人员的调控下,修正对所述影片播放机构的播放帧率。
9.如权利要求8所述的基于模型训练的方言识别系统,其特征在于:
在播放人员的调控下,修正对所述影片播放机构的播放帧率包括:修正后的影片播放机构的播放帧率为所述目标播放影片的设定帧率的倍数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011413451.XA CN113066478A (zh) | 2020-12-07 | 2020-12-07 | 基于模型训练的方言识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011413451.XA CN113066478A (zh) | 2020-12-07 | 2020-12-07 | 基于模型训练的方言识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113066478A true CN113066478A (zh) | 2021-07-02 |
Family
ID=76558679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011413451.XA Withdrawn CN113066478A (zh) | 2020-12-07 | 2020-12-07 | 基于模型训练的方言识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113066478A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102096924A (zh) * | 2010-11-18 | 2011-06-15 | 无锡中星微电子有限公司 | 一种调整检测帧率的方法 |
CN108156515A (zh) * | 2017-12-27 | 2018-06-12 | 深圳Tcl新技术有限公司 | 视频播放方法、智能电视及计算机可读存储介质 |
CN109478250A (zh) * | 2016-06-30 | 2019-03-15 | 微软技术许可有限责任公司 | 具有用于语言建模和预测的副输入的人工神经网络 |
US20190163981A1 (en) * | 2017-11-28 | 2019-05-30 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for extracting video preview, device and computer storage medium |
CN109876473A (zh) * | 2018-08-02 | 2019-06-14 | 朱丽萍 | 计算机辅助应用平台 |
US20200234705A1 (en) * | 2019-04-11 | 2020-07-23 | Alibaba Group Holding Limited | Information processing system, method, device and equipment |
CN112040311A (zh) * | 2020-07-24 | 2020-12-04 | 北京航空航天大学 | 视频图像补帧方法、装置、设备及可存储介质 |
-
2020
- 2020-12-07 CN CN202011413451.XA patent/CN113066478A/zh not_active Withdrawn
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102096924A (zh) * | 2010-11-18 | 2011-06-15 | 无锡中星微电子有限公司 | 一种调整检测帧率的方法 |
CN109478250A (zh) * | 2016-06-30 | 2019-03-15 | 微软技术许可有限责任公司 | 具有用于语言建模和预测的副输入的人工神经网络 |
US20190163981A1 (en) * | 2017-11-28 | 2019-05-30 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for extracting video preview, device and computer storage medium |
CN108156515A (zh) * | 2017-12-27 | 2018-06-12 | 深圳Tcl新技术有限公司 | 视频播放方法、智能电视及计算机可读存储介质 |
CN109876473A (zh) * | 2018-08-02 | 2019-06-14 | 朱丽萍 | 计算机辅助应用平台 |
US20200234705A1 (en) * | 2019-04-11 | 2020-07-23 | Alibaba Group Holding Limited | Information processing system, method, device and equipment |
CN112040311A (zh) * | 2020-07-24 | 2020-12-04 | 北京航空航天大学 | 视频图像补帧方法、装置、设备及可存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111968649B (zh) | 一种字幕纠正方法、字幕显示方法、装置、设备及介质 | |
CN110970018B (zh) | 语音识别方法和装置 | |
CN109740077A (zh) | 基于语义索引的答案搜索方法、装置及其相关设备 | |
WO2019218467A1 (zh) | 一种音视频通话方言识别方法、装置、终端设备及介质 | |
JP2011186491A (ja) | テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル | |
CN112487139A (zh) | 基于文本的自动出题方法、装置及计算机设备 | |
CN111539199B (zh) | 文本的纠错方法、装置、终端、及存储介质 | |
KR20200119410A (ko) | 전역 및 지역 문맥 기반 한국어 대화문 감정 인식 시스템 및 방법 | |
CN114254655B (zh) | 一种基于提示自监督学习网络安全溯源语义识别方法 | |
CN112399269B (zh) | 视频分割方法、装置、设备及存储介质 | |
CN111046148A (zh) | 智能交互系统及智能客服机器人 | |
CN110998741B (zh) | 编码医学词汇的映射 | |
CN112487786A (zh) | 一种基于乱序重排的自然语言模型预训练方法及电子设备 | |
DE102022131824A1 (de) | Visuelle Spracherkennung für Digitalvideos unter Einsatz generativ-adversativen Lernens | |
CN113923521B (zh) | 一种视频的脚本化方法 | |
Srinivasan et al. | Analyzing utility of visual context in multimodal speech recognition under noisy conditions | |
Peymanfard et al. | Lip reading using external viseme decoding | |
CN113255331B (zh) | 文本纠错方法、装置及存储介质 | |
CN117033961A (zh) | 一种上下文语境感知的多模态图文分类方法 | |
CN113128176A (zh) | 总结模型的训练方法和工单生成方法及相关设备、装置 | |
CN113066478A (zh) | 基于模型训练的方言识别系统 | |
US11010562B2 (en) | Visual storyline generation from text story | |
Krishnamoorthy et al. | E-Learning Platform for Hearing Impaired Students | |
CN111428479A (zh) | 一种文本中预测标点的方法和装置 | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210702 |