CN106356054A - 一种基于语音识别的农产品信息采集方法和系统 - Google Patents

一种基于语音识别的农产品信息采集方法和系统 Download PDF

Info

Publication number
CN106356054A
CN106356054A CN201611038064.6A CN201611038064A CN106356054A CN 106356054 A CN106356054 A CN 106356054A CN 201611038064 A CN201611038064 A CN 201611038064A CN 106356054 A CN106356054 A CN 106356054A
Authority
CN
China
Prior art keywords
voice
model
server
agricultural
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201611038064.6A
Other languages
English (en)
Inventor
李才平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangxi University
Original Assignee
Guangxi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangxi University filed Critical Guangxi University
Priority to CN201611038064.6A priority Critical patent/CN106356054A/zh
Publication of CN106356054A publication Critical patent/CN106356054A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及农产品信息采集技术领域,公开一种基于语音识别的农产品信息采集方法和系统。一种农业语音信息识别的方法,该方法包括模型训练阶段和识别阶段。模型训练阶段包括声学模型训练和语言模型训练两部分。一种基于语音识别的农产品信息采集系统,包括移动终端、移动互联网、语音云计算平台;语音云计算平台包括语音服务器、业务服务器、授权服务器;语音服务器提供自动语音识别服务和语音合成服务。系统在云计算平台搭建识别引擎,并训练出稳定的声学模型,通过手持式移动终端采集语音信号,通过互联网发送到服务器端进行识别,词识别率达到95%以上,满足了农产品语音信息采集的需要,工作效率高。

Description

一种基于语音识别的农产品信息采集方法和系统
技术领域
本发明涉及农产品信息采集技术领域,更具体地说,特别涉及一种基于语音识别的农产品信息采集方法和系统。
背景技术
随着我国农产品质量安全体系的建立和各项制度的不断完善,农产品质量安全信息的采集成为重要环节;但信息采集具有实时性强、覆盖面广、传统设备操作性差等特点。如何提高工作效率、减少人工重复劳动,是实现农产品质量安全生产与追溯、农产品市场监控及预警过程中亟待解决的问题。语言是人类沟通的最自然形式,其中蕴含大量的信息,语言交流也是农业生产中重要的通信手段。随着语音识别技术的迅速发展,将语音信息转化为便于计算机的处理文本信息,使得语音信息应用于农业生产成为可能。
语音识别(Speech Recognition),也称自动语音识别或机器语音识别,是通过计算机将人类语音信号转换为文本序列的过程。它涉及到人工智能与模式识别、数字信号处理、统计与概率、认知心理学、语音学、语言学等学科领域,是一门非常复杂的交叉学科。
语音识别的研究已经吸引了60年的极大关注。20世纪80年代中期,隐马尔科夫模型(HiddenMarkovModel,HMM)作为语音信号的一种统计模型,在语音信号处理的各个领域得到广泛应用,进而成为一个公认的研究热点,也是目前语音识别的主流研究途径。20世纪90年代,语音识别已从实验室走向实用化,如语音导航、语音听写、电话网络自动呼叫处理及票务查询等。近年来,鲁棒的语音识别、基于语音段的建模方法、隐马尔科夫模型和人工神经网络的结合成为研究的热点;另一方面,为了语音识别实用化的需要,语者自适应、听觉模型以及进一步的语言模型的课题倍受关注。
语音识别在农业领域的应用研究较薄弱。由于语音识别的学科综合性较强,加之手持式设备处理能力的限制,农业领域人员开发语音处理系统存在困难;而信息技术领域研究人员多注重通用、大词汇量、连续语音识别方法的研究。虽然目前有不少语音识别方面的研究成果产品,但仍缺乏基于手持设备的农业语音采集技术、方法或二次开发工具,在移动设备农业语音信息采集方法研究方面,目前仍处于空白。
农产品信息采集作为质量追溯、信息发布的关键和基础,采集技术和作业场景复杂多样。从技术上看,采集方式可分为两类:①原始信息采集。如生产记录、生长环境、农产品等级和价格等数据,需人工采集。嵌入式手持设备是此类任务的主流硬件平台。②数字化自动采集。通过传感器自动采集环境信息(温度、湿度等),通过条形码、RFID等技术自动采集原料信息(产地、时间等)。对于已完成数字化处理的数据,现有技术设备已经能够很好地解决其采集的问题,而对于只能通过人工干预进行采集的信息,由于大部分需要在进行农产品生产、管理工作的同时完成信息采集,而现有的设备和系统主要采用基于视觉/手动方式来完成采集,采集信息的同时必然导致工作效率降低。
发明内容
本发明的目的在于提供一种农业语音信息识别的方法,该方法包括模型训练阶段和识别阶段。模型训练阶段包括声学模型训练和语言模型训练两部分。声学模型的建模单元为上下文三音子。声学模型训练的步骤是:第一步,对声音信号进行预处理;第二步,提取稳定的声学特征;第三步,通过人工采集大量的语音样本建立语音语料库;最后一步,采用向前向后算法进行模型的训练,得到稳定的声学模型。语言模型的训练的步骤是:第一步,对特定的应用场景用文本提取工具提取大量的文本,第二步,建立语料库,并对其语义分析和语法结构进行推断,进而形成语言模型。识别阶段的步骤是:第一步,在前端对输入语音信号进行特征提取,得到的特征向量与声学模型进行声学对比;第二步,从发音词典中选出概率分布最为接近的候选词,再利用语言模型进一步进行约束,得到最终的农业信息文本。
一种基于语音识别的农产品信息采集系统,包括移动终端、移动互联网、语音云计算平台;语音云计算平台包括语音服务器、业务服务器、授权服务器;语音服务器提供自动语音识别服务和语音合成服务。
与现有技术相比,系统在云计算平台搭建识别引擎,并训练出稳定的声学模型,通过手持式移动终端采集语音信号,通过互联网发送到服务器端进行识别,词识别率达到95%以上,满足了农产品语音信息采集的需要,工作效率高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明所述系统总体结构图。
图2是本发明所述系统通信原理图。
具体实施方式
下面结合附图对本发明的优选实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
参阅图2所示,本发明提供一种农业语音信息识别的方法,该方法包括模型训练阶段和识别阶段。模型训练阶段包括声学模型训练和语言模型训练两部分。声学模型的建模单元为上下文三音子。声学模型训练的步骤是:第一步,对声音信号进行预处理;第二步,提取稳定的声学特征;第三步,通过人工采集大量的语音样本建立语音语料库;最后一步,采用向前向后算法进行模型的训练,得到稳定的声学模型。语言模型的训练的步骤是:第一步,对特定的应用场景用文本提取工具提取大量的文本,第二步,建立语料库,并对其语义分析和语法结构进行推断,进而形成语言模型。识别阶段的步骤是:第一步,在前端对输入语音信号进行特征提取,得到的特征向量与声学模型进行声学对比;第二步,从发音词典中选出概率分布最为接近的候选词,再利用语言模型进一步进行约束,得到最终的农业信息文本。
语音识别的主要过程分为模型训练阶段和识别阶段,其过程如图1所示。模型训练包括声学模型的训练和语言模型训练两部分。声学模型当前主要采用上下文三音子为建模单元,通过人工采集大量的语音样本建立语音语料库,采用向前向后算法进行模型的训练,得到稳定的声学模型。在声学训练之前,需要对声音信号进行预处理、提取稳定的声学特征,当前主流的特征为MEL频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFCC)或感知线性预测系数(PerceptualLinearPrediction,PLP)等,较好地解决了特征提取问题。语言模型的训练主要是文本信息的处理,首先对特定的应用场景用文本提取工具提取大量的文本,建立语料库,并对其语义分析和语法结构进行推断,进而形成一系列的语法规则,即语言模型。
识别过程是对语音信号进行解码(decoding)的过程,基于隐马尔科夫模型的解码过程可采用Viterbi算法。首先,在前端对输入语音信号进行特征提取,得到的特征向量与声学模型进行声学对比;然后,从发音词典中选出概率分布最为接近的候选词,再利用语言模型进一步进行约束,得到最终的识别结果。
本发明还在一种农业语音信息识别的方法的基础上,提供了一种基于语音识别的农产品信息采集系统,系统基于移动互联网和云计算平台,构建应用系统,如图2所示。利用手机平台作为移动终端,采集语音信息和实现人机交互,通过移动GPRS/3G/4G通信网络和HTTP协议,将采集到的语音信号发送到语音服务器进行识别,语音服务器依靠强大的云计算资源提供自动语音识别(ASR)服务,可根据业务需求提供语音合成服务(TTS)。Web服务器为语音服务、业务服务、授权服务提供访问支持,通过http协议实现可靠的通信任务。业务服务器实现各种信息查询、决策支持、预警信息发布等具体业务。互联网用户通过Internet实现业务信息的访问,同时也可以完成语音识别的功能,但显然不适合在作业现场完成。
经测试,使用本发明的方法和系统词识别率(WRR)达到95%以上,基本满足了农产品语音信息采集的需要。
虽然结合附图描述了本发明的实施方式,但是专利所有者可以在所附权利要求的范围之内做出各种变形或修改,只要不超过本发明的权利要求所描述的保护范围,都应当在本发明的保护范围之内。

Claims (2)

1.一种农业语音信息识别的方法,该方法包括模型训练阶段和识别阶段;所述模型训练阶段包括声学模型训练和语言模型训练两部分;所述声学模型的建模单元为上下文三音子;所述声学模型训练的步骤是:第一步,对声音信号进行预处理;第二步,提取稳定的声学特征;第三步,通过人工采集大量的语音样本建立语音语料库;最后一步,采用向前向后算法进行模型的训练,得到稳定的声学模型;所述语言模型的训练的步骤是:第一步,对特定的应用场景用文本提取工具提取大量的文本,第二步,建立语料库,并对其语义分析和语法结构进行推断,进而形成语言模型;所述识别阶段的步骤是:第一步,在前端对输入语音信号进行特征提取,得到的特征向量与声学模型进行声学对比;第二步,从发音词典中选出概率分布最为接近的候选词,再利用语言模型进一步进行约束,得到最终的农业信息文本。
2.一种基于语音识别的农产品信息采集系统,包括移动终端、移动互联网、语音云计算平台;语音云计算平台包括语音服务器、业务服务器、授权服务器;语音服务器提供自动语音识别服务和语音合成服务。
CN201611038064.6A 2016-11-23 2016-11-23 一种基于语音识别的农产品信息采集方法和系统 Withdrawn CN106356054A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611038064.6A CN106356054A (zh) 2016-11-23 2016-11-23 一种基于语音识别的农产品信息采集方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611038064.6A CN106356054A (zh) 2016-11-23 2016-11-23 一种基于语音识别的农产品信息采集方法和系统

Publications (1)

Publication Number Publication Date
CN106356054A true CN106356054A (zh) 2017-01-25

Family

ID=57861754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611038064.6A Withdrawn CN106356054A (zh) 2016-11-23 2016-11-23 一种基于语音识别的农产品信息采集方法和系统

Country Status (1)

Country Link
CN (1) CN106356054A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108305625A (zh) * 2018-01-29 2018-07-20 深圳春沐源控股有限公司 语音控制方法及装置、电子设备和计算机可读存储介质
CN108364655A (zh) * 2018-01-31 2018-08-03 网易乐得科技有限公司 语音处理方法、介质、装置和计算设备
CN108846362A (zh) * 2018-06-15 2018-11-20 温岭市志创网络科技有限公司 一种基于大数据云服务器的农作物病害识别系统及方法
US20200220869A1 (en) * 2019-01-08 2020-07-09 Fidelity Information Services, Llc Systems and methods for contactless authentication using voice recognition
CN112382276A (zh) * 2020-10-20 2021-02-19 国网山东省电力公司物资公司 一种基于语音语义识别的电网物料信息采集方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101604520A (zh) * 2009-07-16 2009-12-16 北京森博克智能科技有限公司 基于统计模型和语法规则的口语语音识别方法
CN101739867A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 运用计算机对口语翻译质量进行评分的方法
CN103810998A (zh) * 2013-12-05 2014-05-21 中国农业大学 基于移动终端设备的离线语音识别方法以及实现方法
CN103956162A (zh) * 2014-04-04 2014-07-30 上海元趣信息技术有限公司 针对儿童的语音识别方法及装置
CN103971686A (zh) * 2013-01-30 2014-08-06 腾讯科技(深圳)有限公司 自动语音识别方法和系统
JP2015087556A (ja) * 2013-10-31 2015-05-07 日本電信電話株式会社 音声認識用wfst作成装置と音声認識装置とそれらの方法とプログラムと記録媒体
US9126661B2 (en) * 2011-08-05 2015-09-08 Pgs Geophysical As Method and system of a controllable tail buoy
CN105609107A (zh) * 2015-12-23 2016-05-25 北京奇虎科技有限公司 一种基于语音识别的文本处理方法和装置
CN105702255A (zh) * 2016-03-28 2016-06-22 华智水稻生物技术有限公司 农业数据采集方法、装置及移动终端

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101739867A (zh) * 2008-11-19 2010-06-16 中国科学院自动化研究所 运用计算机对口语翻译质量进行评分的方法
CN101604520A (zh) * 2009-07-16 2009-12-16 北京森博克智能科技有限公司 基于统计模型和语法规则的口语语音识别方法
US9126661B2 (en) * 2011-08-05 2015-09-08 Pgs Geophysical As Method and system of a controllable tail buoy
CN103971686A (zh) * 2013-01-30 2014-08-06 腾讯科技(深圳)有限公司 自动语音识别方法和系统
JP2015087556A (ja) * 2013-10-31 2015-05-07 日本電信電話株式会社 音声認識用wfst作成装置と音声認識装置とそれらの方法とプログラムと記録媒体
CN103810998A (zh) * 2013-12-05 2014-05-21 中国农业大学 基于移动终端设备的离线语音识别方法以及实现方法
CN103956162A (zh) * 2014-04-04 2014-07-30 上海元趣信息技术有限公司 针对儿童的语音识别方法及装置
CN105609107A (zh) * 2015-12-23 2016-05-25 北京奇虎科技有限公司 一种基于语音识别的文本处理方法和装置
CN105702255A (zh) * 2016-03-28 2016-06-22 华智水稻生物技术有限公司 农业数据采集方法、装置及移动终端

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108305625A (zh) * 2018-01-29 2018-07-20 深圳春沐源控股有限公司 语音控制方法及装置、电子设备和计算机可读存储介质
WO2019144543A1 (zh) * 2018-01-29 2019-08-01 深圳春沐源控股有限公司 语音控制方法及装置、电子设备和计算机可读存储介质
CN108364655A (zh) * 2018-01-31 2018-08-03 网易乐得科技有限公司 语音处理方法、介质、装置和计算设备
CN108846362A (zh) * 2018-06-15 2018-11-20 温岭市志创网络科技有限公司 一种基于大数据云服务器的农作物病害识别系统及方法
US20200220869A1 (en) * 2019-01-08 2020-07-09 Fidelity Information Services, Llc Systems and methods for contactless authentication using voice recognition
CN112382276A (zh) * 2020-10-20 2021-02-19 国网山东省电力公司物资公司 一种基于语音语义识别的电网物料信息采集方法及装置

Similar Documents

Publication Publication Date Title
CN107945805B (zh) 一种智能化跨语言语音识别转化方法
CN109192213B (zh) 庭审语音实时转写方法、装置、计算机设备及存储介质
US10978047B2 (en) Method and apparatus for recognizing speech
CN106611597B (zh) 基于人工智能的语音唤醒方法和装置
CN110717018A (zh) 一种基于知识图谱的工业设备故障维修问答系统
CN106356054A (zh) 一种基于语音识别的农产品信息采集方法和系统
CN109087648B (zh) 柜台语音监控方法、装置、计算机设备及存储介质
CN102723078B (zh) 基于自然言语理解的语音情感识别方法
CN105374356B (zh) 语音识别方法、语音评分方法、语音识别系统及语音评分系统
CN101930735B (zh) 语音情感识别设备和进行语音情感识别的方法
CN101246685B (zh) 计算机辅助语言学习系统中的发音质量评价方法
CN111105785B (zh) 一种文本韵律边界识别的方法及装置
CN106354835A (zh) 基于上下文语义理解的人工对话辅助系统
CN114116994A (zh) 一种迎宾机器人对话方法
CN105206271A (zh) 智能设备的语音唤醒方法及实现所述方法的系统
CN106935239A (zh) 一种发音词典的构建方法及装置
CN103811009A (zh) 一种基于语音分析的智能电话客服系统
CN107403619A (zh) 一种应用于自行车环境的语音控制方法及系统
CN106097835B (zh) 一种聋哑人交流智能辅助系统及交流的方法
CN105374352A (zh) 一种语音激活方法及系统
CN107122807A (zh) 一种家庭监控方法、服务端及计算机可读存储介质
CN102945673A (zh) 一种语音指令范围动态变化的连续语音识别方法
CN111508469A (zh) 一种文语转换方法及装置
CN104123930A (zh) 喉音识别方法及装置
CN114818649A (zh) 基于智能语音交互技术的业务咨询处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20170125

WW01 Invention patent application withdrawn after publication