CN111161738A - 一种语音文件检索系统及其检索方法 - Google Patents
一种语音文件检索系统及其检索方法 Download PDFInfo
- Publication number
- CN111161738A CN111161738A CN201911377279.4A CN201911377279A CN111161738A CN 111161738 A CN111161738 A CN 111161738A CN 201911377279 A CN201911377279 A CN 201911377279A CN 111161738 A CN111161738 A CN 111161738A
- Authority
- CN
- China
- Prior art keywords
- retrieval
- voice
- voice file
- words
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种一种语音文件检索系统及其检索方法,所述检索系统包括语音接收模块,用以接收并存储语音文件;语音识别模块,用以将语音文件解析为文本信息并提取出特征词信息;数据记录模块,用以存储语音识别模块的处理结果;用户检索模块,用以根据检索词调用数据记录模块并进行数据匹配。所述检索方法包括获取用户发送的语音文件;将语音文件解析为文本信息,并提取出特征词;根据特征词调取其对应的语音文件的属性信息;将用户提供的检索词与特征词进行数据匹配,并将匹配结果反馈给用户。本发明的检索系统及其检索方法不仅提高了语音文件的检索精确度,而且提高了检索效率。
Description
技术领域
本发明涉及语音信号处理领域,尤其涉及一种语音文件检索系统及其检索方法。
背景技术
语音是一种特殊类型的音频,它可以转化成语音文件存储在电脑或者手机等智能设备中。一方面随着QQ、微信等聊天软件的大规模使用及网络技术的普及,语音文件在智能设备或者互联网上所占的比例逐渐变大,如何快速准确地找出这些语音文件逐渐变得重要起来,另一方面随着云技术的快速发展,各种各样的数据库建立了起来,如何通过网络快速找到存储在这些数据库里的语音文件逐渐成为互联网时代的技术难题。
现有的语音文件检索系统主要是根据语音文件名称初步匹配用户输入的检索词或者在检索时识别语音文件的内容来匹配用户输入的检索词,但这种方式检索的准确度较低,而且每次检索同一份语音文件时,都需要重新识别语音文件的内容,效率较慢。
发明内容
为克服上述缺点,本发明的目的在于提供一种语音文件检索系统及其检索方法,不仅提高了语音文件的检索精确度,而且提高了检索效率。
为了达到以上目的,本发明采用的技术方案之一是:一种语音文件检索系统,包括通讯互连的语音接收模块、语音识别模块、数据记录模块、用户检索模块。
所述语音接收模块包括至少一个互联网套接字端口以及与所述套接字端口通讯连接的存储器;所述套接字端口用于接收用户发送的语音文件,所述存储器用于存储所述套接字端口接收的语音文件。
所述语音识别模块包括语音解析单元、信息提取单元,所述语音解析单元用于将语音文件解析为文本信息,所述信息提取单元用于提取所述文本信息内的特征词信息。
所述数据记录模块用以存储所述语音识别模块生成的文本信息及特征词信息。
所述用户检索模块包括互联网接口、检索单元、显示单元;所述互联网接口用于供用户输入检索词,所述检索单元用于根据检索词调用所述数据记录模块并进行数据匹配;所述显示单元用于显示所述检索单元检索的匹配结果。
通过语音接收模块获取并存储待检索的语音文件,再通过语音识别模块将语音文件解析为文本信息并提取出表征该文本信息的特征词信息,再通过数据记录模块存储语音识别模块的处理结果;当用户在互联网接口中输入检索词时,检索单元只需调用数据记录模块并将检索词与特征词信息进行数据匹配(即文本与文本匹配),然后再通过显示单元显示其匹配结果。
本发明的有益效果在于:本发明的检索系统通过套接字端口与互联网接口的配合提高了互联网中语音文件的检索速度;通过语音识别模块将语音文件转换成能表征其特征的特征词,再通过数据记录模块存储特征词的相关信息;在检索时只需将检索词与特征词进行数据匹配即可快速获取与检索词匹配的特征词信息,从而获取特征词所对应的语音文件信息;通过检索词与特征词的数据匹配大大提高了检索的准确度,而且通过数据记录模块存储特征词的相关信息使得下次检索同份语音文件时能直接获取其特征词信息,提高检索效率。
进一步来说,所述信息提取单元包括分词子单元、置信度评估子单元、信息提取子单元;所述分词子单元用于将文本信息拆分为多个词组,所述置信度评估子单元用于对所述分词子单元拆分的多个词组进行置信度评估并滤除无用词组,以得到能表征文本信息的特征词;所述信息提取子单元用于根据所述特征词调取其对应的语音文件的属性信息。
进一步来说,所述属性信息包括语音文件的文件名称、语音文件的创建时间、特征词在语音文件中的位置。
进一步来说,所述用户检索模块还包括同义解析单元,所述同义解析单元用于解析检索词并生成与所述检索词语义近似的同义检索词。
进一步来说,所述检索单元还包括根据同义检索词调用所述数据记录模块并进行数据匹配。
本发明采用的技术方案之二是:一种语音文件的检索方法,包括如下步骤:S1获取用户发送的语音文件,并存储到存储器中;S2将语音文件解析为文本信息,并提取出能表征所述文本信息的特征词;S3根据特征词调取其对应的语音文件的属性信息;S4将用户提供的检索词与特征词进行数据匹配,并将匹配结果反馈给用户。
本发明的有益效果在于:本发明的检索方法将待检索的语音文件解析为文本信息并提取出能表征文本信息的特征词及特征词所对应的语音文件的属性信息,当需要检索时,只需将检索词与特征词进行数据匹配即可获取与检索词匹配的语音文件信息。通过特征词与检索词的数据匹配能大大提高检索的准确度,而且提高了检索效率。
进一步来说,S2中,提取表征所述文本信息的特征词的步骤包括:将文本信息拆分为多个词组,对多个词组分别进行置信度评估并滤除无用词组。
进一步来说,S3中,所述属性信息包括语音文件的文件名称、语音文件的创建时间、特征词在语音文件中的位置。
进一步来说,S3、S4之间还包括对检索词进行同义解析以生成与所述检索词语义近似的同义检索词。
进一步来说,S1中,所述语音文件通过至少一个互联网套接字端口获取。
附图说明
图1为本发明实施例的检索系统的结构框架图;
图2为本发明实施例的语音解析单元的工作原理图;
图3为本发明实施例的检索方法的流程图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
实施例
参见附图1所示,本发明的一种语音文件检索系统,包括通讯互连的语音接收模块、语音识别模块、数据记录模块、用户检索模块。
所述语音接收模块包括至少一个互联网套接字端口以及与所述套接字端口通讯连接的存储器;所述套接字端口用于接收用户发送的语音文件,所述存储器用于存储所述套接字端口接收的语音文件。
所述语音识别模块包括语音解析单元、信息提取单元,所述语音解析单元用于将语音文件解析为文本信息,所述信息提取单元用于提取所述文本信息内的特征词信息。
参见附图2所示,所述语音解析单元能实时监控语音文件在创建过程中的状态,并能存储的语音文件进行解析以判断其是否包含语音文件内容的文字描述。当语音文件内容有文字描述时,直接读取该文字描述audioDis;当语音文件内容没有文字描述时,则读取语音文件的Header数据、音频数据Audio Source,并获取文字描述数据Subtitle,计算其长度Sutitle Size,随后写入Header数据,修改Header数据中的数据长度标识,其写入的Header数据的长度为Hength+SutitleSize,再依次写入Subtitle Source、SubTitle Size和AudioSource。
所述信息提取单元包括分词子单元、置信度评估子单元、信息提取子单元。所述分词子单元用于根据分词模型将文本信息拆分为多个词组。所述置信度评估子单元用于对所述分词子单元拆分的多个词组进行置信度评估并滤除无用词组,以得到能表征文本信息的特征词。所述信息提取子单元用于根据所述特征词调取其对应的语音文件的属性信息。所述属性信息包括语音文件的文件名称、语音文件的创建时间、特征词在语音文件中的位置。
其中,分词模型是由若干个标准词组组成的数据库,分词子单元的工作过程为:将文本信息作为分词文本,从句首开始以逐字递增的方式对分词文本进行字符提取,每次提取得到一个字段;将该字段与分词模型中的标准词组进行匹配:若该字段与标准词组不匹配,则保存该字段并继续提取该字段后的下一个字符,然后将该字段与该字符相结合得到一个新的字段,将新的字段重新与标准词组进行匹配;若该字段与标准词组相匹配,则将该字段作为一个分词词组,并在分词文本的该字段后增加断点,再将断点后的分词文本作为新的分词文本,重新进行字符提取;以此类推,直至整个文本信息全部分词完成,得到分词结果。
所述数据记录模块用以存储所述语音识别模块生成的文本信息、特征词、特征词所对应的语音文件的属性信息。
所述用户检索模块包括互联网接口、同义解析单元、检索单元、显示单元。所述互联网接口用于供用户输入检索词;所述同义解析单元用于解析检索词并生成与所述检索词语义近似的同义检索词;所述检索单元用于根据检索词及同义检索词调用所述数据记录模块的特征词并进行数据匹配;所述显示单元用于显示所述检索单元检索的匹配结果。
所述检索单元的工作过程为:将检索词及同义检索词与数据记录模块存储的特征词进行匹配,若匹配到特征词,则调用该特征词所对应的语音文件的属性信息,并将该特征词、语音文件的属性信息以文本形式显示到显示单元;若没有匹配到特征词,则在显示单元显示无匹配结果。
本发明的检索系统通过套接字端口与互联网接口的配合提高了互联网中语音文件的检索速度;通过语音识别模块将语音文件转换成能表征其特征的特征词,再通过数据记录模块存储特征词的相关信息;在检索时只需将检索词与特征词进行数据匹配即可快速获取与检索词匹配的特征词信息,从而获取特征词所对应的语音文件信息;通过检索词与特征词的数据匹配大大提高了检索的准确度,而且通过数据记录模块存储特征词的相关信息使得下次检索同份语音文件时能直接获取其特征词信息,提高检索效率。
参见附图3所示,本发明还提供了一种语音文件的检索方法,包括如下步骤:S1通过至少一个套接字端口获取用户发送的语音文件,并存储到存储器中;S2将语音文件解析为文本信息,将文本信息拆分为多个词组,对多个词组进行置信度评估并滤除无用词组,以得到能表征文本信息的特征词;S3根据特征词调取其对应的语音文件的属性信息,所述属性信息包括语音文件的文件名称、语音文件的创建时间、特征词在语音文件中的位置;S4将用户提供的检索词与特征词进行数据匹配,并将匹配结果反馈给用户。
所述S3、S4之间还包括对检索词进行同义解析以生成与所述检索词语义近似的同义检索词。
本发明的检索方法将待检索的语音文件解析为文本信息并提取出能表征文本信息的特征词及特征词所对应的语音文件的属性信息,当需要检索时,只需将检索词与特征词进行数据匹配即可获取与检索词匹配的语音文件信息。通过特征词与检索词的数据匹配能大大提高检索的准确度,而且提高了检索效率。
以上实施方式只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人了解本发明的内容并加以实施,并不能以此限制本发明的保护范围,凡根据本发明精神实质所做的等效变化或修饰,都应涵盖在本发明的保护范围内。
Claims (10)
1.一种语音文件检索系统,其特征在于:包括通讯互连的语音接收模块、语音识别模块、数据记录模块、用户检索模块;
所述语音接收模块包括至少一个互联网套接字端口以及与所述套接字端口通讯连接的存储器;所述套接字端口用于接收用户发送的语音文件,所述存储器用于存储所述套接字端口接收的语音文件;
所述语音识别模块包括语音解析单元、信息提取单元,所述语音解析单元用于将语音文件解析为文本信息,所述信息提取单元用于提取所述文本信息内的特征词信息;
所述数据记录模块用以存储所述语音识别模块生成的文本信息及特征词信息;
所述用户检索模块包括互联网接口、检索单元、显示单元;所述互联网接口用于供用户输入检索词,所述检索单元用于根据检索词调用所述数据记录模块并进行数据匹配;所述显示单元用于显示所述检索单元检索的匹配结果。
2.根据权利要求1所述的检索系统,其特征在于:所述信息提取单元包括分词子单元、置信度评估子单元、信息提取子单元;所述分词子单元用于将文本信息拆分为多个词组,所述置信度评估子单元用于对所述分词子单元拆分的多个词组进行置信度评估并滤除无用词组,以得到能表征文本信息的特征词;所述信息提取子单元用于根据所述特征词调取其对应的语音文件的属性信息。
3.根据权利要求2所述的检索系统,其特征在于:所述属性信息包括语音文件的文件名称、语音文件的创建时间、特征词在语音文件中的位置。
4.根据权利要求1-3任一所述的检索系统,其特征在于:所述用户检索模块还包括同义解析单元,所述同义解析单元用于解析检索词并生成与所述检索词语义近似的同义检索词。
5.根据权利要求4所述的检索系统,其特征在于:所述检索单元还包括根据所述同义检索词调用所述数据记录模块并进行数据匹配。
6.一种语音文件的检索方法,其特征在于:包括如下步骤:S1获取用户发送的语音文件,并存储到存储器中;S2将语音文件解析为文本信息,并提取出能表征所述文本信息的特征词;S3根据特征词调取其对应的语音文件的属性信息;S4将用户提供的检索词与特征词进行数据匹配,并将匹配结果反馈给用户。
7.根据权利要求6所述的检索方法,其特征在于:S2中,提取表征所述文本信息的特征词的步骤包括:将文本信息拆分为多个词组,再对多个词组分别进行置信度评估并滤除无用词组。
8.根据权利要求6所述的检索方法,其特征在于:S3中,所述属性信息包括语音文件的文件名称、语音文件的创建时间、特征词在语音文件中的位置。
9.根据权利要求6所述的检索方法,其特征在于:所述S3、S4之间还包括对检索词进行同义解析以生成与所述检索词语义近似的同义检索词。
10.根据权利要求6所述的检索方法,其特征在于:S1中,所述语音文件通过至少一个互联网套接字端口获取。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911377279.4A CN111161738A (zh) | 2019-12-27 | 2019-12-27 | 一种语音文件检索系统及其检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911377279.4A CN111161738A (zh) | 2019-12-27 | 2019-12-27 | 一种语音文件检索系统及其检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111161738A true CN111161738A (zh) | 2020-05-15 |
Family
ID=70558574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911377279.4A Pending CN111161738A (zh) | 2019-12-27 | 2019-12-27 | 一种语音文件检索系统及其检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111161738A (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1056265A2 (en) * | 1999-05-26 | 2000-11-29 | Lucent Technologies Inc. | Voice message search system and method |
US6345253B1 (en) * | 1999-04-09 | 2002-02-05 | International Business Machines Corporation | Method and apparatus for retrieving audio information using primary and supplemental indexes |
JP2010009446A (ja) * | 2008-06-30 | 2010-01-14 | Internatl Business Mach Corp <Ibm> | 音声ファイルの検索システム、方法及びプログラム |
CN101996195A (zh) * | 2009-08-28 | 2011-03-30 | 中国移动通信集团公司 | 音频文件中语音信息的搜索方法、装置及设备 |
CN102110126A (zh) * | 2009-12-29 | 2011-06-29 | 潘晓梅 | 信息检索方法及装置 |
CN103886063A (zh) * | 2014-03-18 | 2014-06-25 | 国家电网公司 | 一种文本检索方法和装置 |
CN105045828A (zh) * | 2015-06-26 | 2015-11-11 | 徐信 | 一种音视频语音信息精确定位的检索系统及方法 |
CN106202204A (zh) * | 2016-06-24 | 2016-12-07 | 维沃移动通信有限公司 | 一种语音文件的查找方法及移动终端 |
CN107276659A (zh) * | 2017-06-12 | 2017-10-20 | 深圳市沃特沃德股份有限公司 | 语音对讲方法、装置和移动终端 |
CN109657094A (zh) * | 2018-11-27 | 2019-04-19 | 平安科技(深圳)有限公司 | 音频处理方法及终端设备 |
CN110364154A (zh) * | 2019-07-30 | 2019-10-22 | 深圳市沃特沃德股份有限公司 | 语音实时转换成文本的方法、装置、计算机设备及存储介质 |
CN110610699A (zh) * | 2019-09-03 | 2019-12-24 | 北京达佳互联信息技术有限公司 | 语音信号处理方法、装置、终端、服务器及存储介质 |
-
2019
- 2019-12-27 CN CN201911377279.4A patent/CN111161738A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6345253B1 (en) * | 1999-04-09 | 2002-02-05 | International Business Machines Corporation | Method and apparatus for retrieving audio information using primary and supplemental indexes |
EP1056265A2 (en) * | 1999-05-26 | 2000-11-29 | Lucent Technologies Inc. | Voice message search system and method |
JP2010009446A (ja) * | 2008-06-30 | 2010-01-14 | Internatl Business Mach Corp <Ibm> | 音声ファイルの検索システム、方法及びプログラム |
CN101996195A (zh) * | 2009-08-28 | 2011-03-30 | 中国移动通信集团公司 | 音频文件中语音信息的搜索方法、装置及设备 |
CN102110126A (zh) * | 2009-12-29 | 2011-06-29 | 潘晓梅 | 信息检索方法及装置 |
CN103886063A (zh) * | 2014-03-18 | 2014-06-25 | 国家电网公司 | 一种文本检索方法和装置 |
CN105045828A (zh) * | 2015-06-26 | 2015-11-11 | 徐信 | 一种音视频语音信息精确定位的检索系统及方法 |
CN106202204A (zh) * | 2016-06-24 | 2016-12-07 | 维沃移动通信有限公司 | 一种语音文件的查找方法及移动终端 |
CN107276659A (zh) * | 2017-06-12 | 2017-10-20 | 深圳市沃特沃德股份有限公司 | 语音对讲方法、装置和移动终端 |
CN109657094A (zh) * | 2018-11-27 | 2019-04-19 | 平安科技(深圳)有限公司 | 音频处理方法及终端设备 |
CN110364154A (zh) * | 2019-07-30 | 2019-10-22 | 深圳市沃特沃德股份有限公司 | 语音实时转换成文本的方法、装置、计算机设备及存储介质 |
CN110610699A (zh) * | 2019-09-03 | 2019-12-24 | 北京达佳互联信息技术有限公司 | 语音信号处理方法、装置、终端、服务器及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670163B (zh) | 信息识别方法、信息推荐方法、模板构建方法及计算设备 | |
CN117056471A (zh) | 知识库构建方法及基于生成式大语言模型的问答对话方法和系统 | |
CN103971684A (zh) | 一种添加标点的方法、系统及其语言模型建立方法、装置 | |
CN112084756B (zh) | 会议文件生成方法、装置及电子设备 | |
CN112699645B (zh) | 语料标注方法、装置及设备 | |
CN113094512B (zh) | 一种工业生产制造中故障分析系统及方法 | |
CN111159334A (zh) | 用于房源跟进信息处理的方法及系统 | |
CN111400513A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN112201253B (zh) | 文字标记方法、装置、电子设备及计算机可读存储介质 | |
CN114970514A (zh) | 基于人工智能的中文分词方法、装置、计算机设备及介质 | |
CN113051362A (zh) | 数据的查询方法、装置和服务器 | |
CN111460114A (zh) | 检索方法、装置、设备及计算机可读存储介质 | |
CN106844734B (zh) | 一种自动生成会话回复内容的方法 | |
CN112765963B (zh) | 语句分词方法、装置、计算机设备及存储介质 | |
CN117688220A (zh) | 一种基于大语言模型的多模态信息检索方法及系统 | |
CN110442696B (zh) | 查询处理方法及装置 | |
CN114528851B (zh) | 回复语句确定方法、装置、电子设备和存储介质 | |
CN111783433A (zh) | 一种文本检索纠错方法和装置 | |
CN111161738A (zh) | 一种语音文件检索系统及其检索方法 | |
CN115759048A (zh) | 一种剧本文本处理方法及装置 | |
CN115270777A (zh) | 一种合同文件信息抽取方法、装置、系统 | |
CN114238595A (zh) | 一种基于知识图谱的冶金知识问答方法及系统 | |
CN112905752A (zh) | 一种智能交互方法、装置、设备以及存储介质 | |
CN109727591B (zh) | 一种语音搜索的方法及装置 | |
CN112257420B (zh) | 文本处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200515 |
|
RJ01 | Rejection of invention patent application after publication |