CN111666469A - 语句库构建方法、装置、设备和存储介质 - Google Patents

语句库构建方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN111666469A
CN111666469A CN202010401610.8A CN202010401610A CN111666469A CN 111666469 A CN111666469 A CN 111666469A CN 202010401610 A CN202010401610 A CN 202010401610A CN 111666469 A CN111666469 A CN 111666469A
Authority
CN
China
Prior art keywords
sentence
phoneme
phoneme set
sentences
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010401610.8A
Other languages
English (en)
Other versions
CN111666469B (zh
Inventor
黄族良
陈昊亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Speakin Intelligent Technology Co ltd
Original Assignee
Guangzhou Speakin Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Speakin Intelligent Technology Co ltd filed Critical Guangzhou Speakin Intelligent Technology Co ltd
Priority to CN202010401610.8A priority Critical patent/CN111666469B/zh
Publication of CN111666469A publication Critical patent/CN111666469A/zh
Application granted granted Critical
Publication of CN111666469B publication Critical patent/CN111666469B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语句库构建方法,包括以下步骤:接收到语句库构建指令时,使用爬虫工具从网络抓取初始语句,过滤所述初始语句,生成中间语句,对所述中间语句所包含的每个汉字进行音素标注,形成与所述中间语句对应的音素集,判断所述音素集是否等于预设全音素集,若所述音素集等于预设全音素集,则将所述音素集对应的中间语句作为标准语句写入语句库。本发明还公开了一种语句库构建装置、设备和存储介质。本发明可以解决现有全音素语音采集方法中使用的语句需要人工预设且较为固定的问题。

Description

语句库构建方法、装置、设备和存储介质
技术领域
本发明涉及语音识别领域,尤其涉及语句库构建方法、装置、设备和存储介质。
背景技术
公安声纹识别应用系统通过预先建立的重点人员声纹数据库和应用基于智能语音技术的语音监控系统能快速确认说话人身份,为案件侦破过程提供新的线索和证据,对于提高办案效率,优化办案方式,提高办案质量,提升案件侦破能力都将起到积极的推动作用,在维护国家安全、打击犯罪工作中具有非常重要的意义。当前的公安声纹识别主要是通过比对两段语音中相同音素上的发声来判断两段语音是否由同一个人发出,从而确定身份,因此公安在采集新的语音时,需要被采集者读出数段包含不同音素汉字的句子以采集全部音素,当前公安语句库需要按照音素表人工输入语句,造成人力资源浪费,并且语句库中信息较少且单一,不能满足不同场景使用需求。
发明内容
本发明的主要目的在于提供一种语句库构建方法、装置、设备和存储介质,旨在解决现有用于全音素语音录制的句库需要按照音素表人工输入语句,造成人力资源浪费,并且语句库中信息较少且单一,不能满足不同场景使用需求的技术问题。
为实现上述目的,本发明提供语句库构建方法,所述语句库构建方法包括以下步骤:
接收到语句库构建指令时,使用爬虫工具从网络抓取初始语句;
过滤所述初始语句,生成中间语句;
对所述中间语句所包含的每个汉字进行音素标注,形成与所述中间语句对应的音素集;
判断所述音素集是否等于预设全音素集;
若所述音素集等于预设全音素集,则将所述音素集对应的中间语句作为标准语句写入语句库。
在一实施例中,所述判断所述音素集是否等于预设全音素集的步骤之后,包括:
若所述音素集不等于预设全音素集,则将所述音素集对应的中间语句作为候选语句写入候选语句库;
将候选语句库中的预设数量候选语句组合生成组合语句,并将的预设数量候选语句所对应的音素集进行组合得到并集,将所述并集作为候选音素集;
判断所述候选音素集是否等于预设全音素集,若所述候选音素集等于预设全音素集,则将对应的组合语句作为标准语句写入语句库。
在一实施例中,所述若所述音素集不等于预设全音素集,则将所述音素集对应的中间语句作为候选语句写入候选语句库的步骤,包括:
若所述音素集不等于预设全音素集,则判断所述音素集包含的音素量占全音素量的比例;
若所述比例超过预设阈值,则将所述音素集对应的中间语句作为候选语句写入候选语句库。
在一实施例中,所述对所述中间语句所包含的每个汉字进行音素标注,形成与所述中间语句对应的音素集的步骤,包括:
对所述中间语句所包含的每个汉字进行音素标注,生成第一音素集;
若所述汉字对应多种不同的音素构成方法,则查询所述汉字对应的所有音素是否都存在第一音素集内;
若所述汉字对应的所有音素均包含在第一音素集内,则将所述第一音素集作为所述中间语句对应的音素集;
若所述汉字对应的所有音素未全包含在第一音素集内,则将所述汉字对应的所有音素从第一音素集中剔除,生成所述中间语句对应的音素集。
在一实施例中,所述过滤所述初始语句,生成中间语句的步骤包括:
将初始语句与敏感词库中包含的敏感词进行比对;
若所述初始语句中包含敏感词库中的任一敏感词,则将所述初始语句舍弃;
若所述初始语句中不包含敏感词库中的任一敏感词,则将所述初始语句作为中间语句。
在一实施例中,所述过滤所述初始语句,生成中间语句的步骤包括:
将所述初始语句输入自然语言处理模型,生成所述初始语句对应的情感评分;
判断所述情感评分是否处于预设区间内,若所述情感评分不处于预设区间内,则将所述初始语句舍弃;
若所述情感评分处于预设区间内,则将所述初始语句作为中间语句。
在一实施例中,所述若所述音素集等于预设全音素集,则将所述音素集对应的中间语句作为标准语句写入语句库的步骤之后,包括:
对所述标准语句进行场景分类;
接收到标准语句生成指令时,获取指令中的预设场景标识;
查询语句库中预设场景标识对应场景分类下的标准语句,调取标准语句并输出。
此外,为实现上述目的,本发明还提供一种语句库构建装置,所述语句库构建装置包括:
语句抓取模块:用于接收到语句库构建指令时,使用爬虫工具从网络抓取初始语句;
过滤模块:用于过滤所述初始语句,生成中间语句;
音素集生成模块:用于对所述中间语句所包含的每个汉字进行音素标注,形成与所述中间语句对应的音素集;
判断模块:判断所述音素集是否等于预设全音素集;
写入模块:用于若所述音素集等于预设全音素集,则将所述音素集对应的中间语句作为标准语句写入语句库。
此外,为实现上述目的,本发明还提供一种语句库构建设备,所述语句库构建设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中:
所述计算机程序被所述处理器执行时实现任一项所述的语句库构建方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现任一项所述的语句库构建方法的步骤。
本发明实施例提出的一种语句库构建方法、装置、设备和存储介质,通过分析处理从网络抓取的初始语句,筛选包含全音素的语句或数段语句组合形成包含全音素的语句,并使用所述语句构建形成语句库,实现了语句库的自动生成,减少了人力资源的浪费,且生成的语句种类较多,适用于多种不同的适用场景。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图;
图2为本发明语句库构建方法第一实施例的流程示意图;
图3为本发明语句库构建方法第四实施例的流程示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
由于现有方法在全音素语音采集时使用的参考语句需要提前人工预设,并且所述语句较为固定,为实现录制包含全音素语音往往由多个毫无关联的字、词、句组合而成,给录制造成一定不便。
本发明提供一种解决方案,通过分析处理从网络抓取的初始语句,筛选包含全音素的语句或数段语句组合形成包含全音素的语句,并使用所述语句构建形成语句库,实现了全音素语音录制时使用的全音素语句自动生成,且生成的语句为一个具有内在联系的独立语句或是数个具有内在联系的独立语句构成,为全音素语音录制提供了便捷。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端(又叫语句库构建设备,其中,语句库构建设备可以是由单独的语句库构建装置构成,也可以是由其他装置与语句库构建装置组合形成) 结构示意图。
本发明实施例终端可以固定终端,也可以是移动终端,如,带联网功能的智能音箱、PC(personal computer)个人计算机、智能手机、平板电脑、便携计算机等。
如图1所示,该终端可以包括:处理器1001,例如,中央处理器 CentralProcessing Unit,CPU),网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口 (如无线保真WIreless-FIdelity,WIFI接口)。存储器1005可以是高速 RAM存储器,也可以是稳定的存储器(non-volatile memory),例如,磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,该计算机软件产品存储在一个存储介质(存储介质:又叫计算机存储介质、计算机介质、可读介质、可读存储介质、计算机可读存储介质或者直接叫介质等,存储介质可以是非易失性可读存储介质,如RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等) 执行本发明各个实施例所述的方法,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及计算机程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器 1005中存储的计算机程序,并执行本发明以下实施例提供的语句库构建方法中的步骤。
参照图2,本发明一种语句库构建方法的第一实施例中,所述语句库构建方法包括:
步骤S10,接收到语句库构建指令时,使用爬虫工具从网络抓取初始语句。
本实施例中语句库构建方法应用于语句库构建设备,所述语句库构建设备包含个人电脑(PC)、智能手机、PDA等具备存储数据处理能力的设备,在此不作具体限定。
语句库构建设备接收到输入的语句库构建指令时,使用预置的爬虫工具从网络抓取初始语句,所述语句库构建指令的输入包含人为输入、自动输入等,特定类型的语句通过人工查阅选取需要耗费大量人力,且受主观影响结果未必准确,因此本发明采用爬虫工作从互联网中抓取语句,爬虫工具也成为网络爬虫,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本,本实施例通过使用爬虫工具从包含大量文字信息的平台抓取语句信息,可以理解的是,所述包含大量文字信息的最佳选择通常包括社交平台、问答平台、新闻平台等用户众多且包含大量相对易于理解的语句的平台,抓取后以分号、句号等作为标识,将包含大量文字的段落分割成语句,将分割得到的语句成为初始语句,用于后续更进一步的处理。
步骤S20,过滤所述初始语句,生成中间语句。
语句库构建设备将初始语句进行过滤处理,过滤后的语句作为中间语句,可以理解的是,由于互联网充斥大量信息,良莠不齐,即便对于爬虫工具抓取的网站作出一定限制也难以避免抓取的初始语句中出现不适于使用的部分,如在以中文语句为目标的抓取操作中,抓取的语句夹杂其他语言,又如初始语句中出现涉及血腥、暴力等敏感的字或词,进一步的,又如初始语句表达的情绪使得所述初始语句不适于使用,因此需要对抓取的初始语句进行过滤处理,如将初始语句于敏感词库中的敏感词进行比对,对包含敏感词的语句进行舍弃,又如判断一条语句中是否包含多种语言,又如将语句进行自然语言处理,分析语句的情感表达,从而进一步排除,将初始语句进行过滤筛选处理后,剩余的语句即为中间语句,用于进一步处理。
步骤S30,对所述中间语句所包含的每个汉字进行音素标注,形成与所述中间语句对应的音素集。
语句库构建设备对所述中间语句所包含的每个汉字进行音素标注,形成与所述中间语句对应的音素集。语句库构建设备调用预置的音素词典,对中间语句包含的每个汉字进行音素标注,所述预置的音素词典为记录了汉字对应音素的词典,通过查询所述音素词典即可获取汉字对应的音素并在中间语句中标注,如中间语句为“普通话”,则可以分析成“p、u、t、o、ng、h、u、a”八个音素,将所述分析得到的音素以集合形式表达得到集合{p、u、t、o、ng、 h、u、a},则集合{p、u、t、o、ng、h、u、a}为中间语句“普通话”对应的音素集,受集合的单一性影响,通过集合形式表示音素集不会出现重复音素,便于后续比对。
步骤S40,判断所述音素集是否等于预设全音素集。
语句库构建设备判断音素集是否等于预设全音素集,音素集表征了该音素集对应的中间语句所包含的音素种类数,所述预设全音素集为包含全部汉语音素的预设集合,运用数学关系判断中间语句对应的音素集是否等于预设全音素集即可判断一个中间语句是否包含全音素,因此将中间语句对应的音素集与预设全音素集进行比对。
步骤S50,若所述音素集等于预设全音素集,则将所述音素集对应的中间语句作为标准语句写入语句库。
在前述判断中,若所述音素集等于预设全音素集,这将所述音素集对应的中间语句作为标准语句写入语句库,即一中间语句对应的音素集中也包含预设全音素集中32个音素,则判定所述中间语句为标准语句,可用于全音素语音录制,将所述标准语句写入语句库中以备使用。若一中间语句的音素集不等于全因素集,即该中间语句不包含全音素,则舍弃该语句。
在本实施例中,语句库构建设备接收指令后,通过爬虫工具从网络抓取初始语句并进行过滤处理,筛选包含全音素的语句,并使用所述语句构建形成语句库,实现了全音素语音录制时使用的全音素语句自动生成,减少了人力资源浪费,生成的语句为一个具有内在联系的独立语句,并且生成的语句较多,为全音素语音录制提供了极大便捷。
进一步的,参照图3,在本发明第一实施例的基础上,进一步提出了本发明语句库构建方法的第二实施例,本实施例是第一实施例中步骤S40的后置步骤,所述语句库构建方法包括:
步骤a1,若所述音素集不等于预设全音素集,则将所述音素集对应的中间语句作为候选语句写入候选语句库。
上述实施例已具体说明一音素集与全音素的比对方法,在此不作赘述,若所述音素集不等于预设全音素集,则将所述音素集对应的中间语句作为候选语句写入候选语句库以备使用,可以预见的是,使用爬虫工具从网络抓取的语句中会存在大部分不包含全音素的语句,因此可将部分不包含全音素的语句进行多个组合,同样可以达到获取全音素语句的效果。
步骤a2,将候选语句库中的预设数量候选语句组合生成组合语句,并将的预设数量候选语句所对应的音素集进行组合得到并集,将所述并集作为候选音素集。
语句库构建设备将候选语句库中的预设数量候选语句组合生成组合语句,并将的预设数量候选语句所对应的音素集进行组合得到并集,将所述并集作为候选音素集。可以理解的是,预设数量的候选语句进行组合可生成包含全音素的语句,所述预设数量可根据用户实际需求设置,候选语句组合后,对所述用于组合的候选语句对应的音素集进行求取并集操作,则该并集包含用于组合的候选语句的所有音素,将该并集作为候选音素集。
步骤a3,判断所述候选音素集是否等于预设全音素集,若所述候选音素集等于预设全音素集,则将对应的组合语句作为标准语句写入语句库。
语句库构建设备判断所述候选音素集是否等于预设全音素集,若所述候选音素集等于预设全音素集,则可判定所述候选音素集对应的组合语句包含预设全音素集,则将所述组合语句作为标准语句写入语句库中。
在本实施例中,通过将不包含全音素的语句进行预设数量组合的方式,生成包含全音素的组合语句,并将所述组合语句写入语句库,在爬虫抓取语句的过程中,抓取的成果具有一定随机性,即可能长时间未抓取到包含全音素的单个语句,本实施例可弥补空缺,生成由多个内在联系紧密的语句组合而成的组合语句填充语句库,也一定程度提升了语句库的构建效率。
进一步的,在本发明以上实施例的基础上,进一步提出了本发明语句库构建方法的第三实施例,本实施例是第二实施例中步骤a1的细化步骤,所述语句库构建方法包括:
步骤b1,若所述音素集不等于预设全音素集,则判断所述音素集包含的音素量占全音素量的比例。
步骤b2,若所述比例超过预设阈值,则将所述音素集对应的中间语句作为候选语句写入候选语句库。
若所述音素集包含不等于预设全音素集,语音库构建设备判断所述音素集包含的音素量占全音素量的比例,如,语句“普通话”的音素集为“p、u、t、o、ng、h、u、a”,该音素集包含音素量为8,占全音素量的比例为25%,若所述比例超过预设阈值,则将所述音素集对应的中间语句作为候选语句写入候选语句库,若所述比例未超过预设阈值,则将所述音素集对应的中间语句舍弃,所述预设阈值由人为设置,即当所述预设阈值为50%时,语句“普通话”包含的音素量占全音素的比例小于预设阈值,因此所述语句舍弃不用。
在本实施例中,通过计算中间语句的音素集包含的音素量占全音素量的比例并与预设阈值比对,筛选保留部分含音素量较多的语句作为候选语句写入候选语句库,在后续由候选语句库中的候选语句组合生成标准语句时,由于各候选语句包含的音素量较多,可快速完成组合,提升语句库的构建效率。
进一步的,参照图3,在本发明以上实施例的基础上,进一步提出了本发明语句库构建方法的第四实施例,本实施例是第一实施例中步骤S30的细化步骤,所述语句库构建方法包括:
步骤S31,对所述中间语句所包含的每个汉字进行音素标注,生成第一音素集。
语句库构建设备对所述中间语句所包含的每个汉字进行音素标注,所述音素方法在前述实施例已作说明,在此不作赘述,对所述红箭语句所包含的每个汉字进行音素标注后生成第一音素集。
步骤S32,若所述汉字对应多种不同的音素构成方法,则查询所述汉字对应的所有音素是否都存在第一音素集内。
若所述汉字对应多种不同的音素构成方法,语句库构建设备则查询所述汉字对应的所有音素是否都存在第一音素集内,可以理解的是,构成语句的汉字可能含有多种读音,表征在音素上,即同一汉字可具有不同的音素构成方法,如“和”可标注为“h、e”或“h、u、o”,而“和”在中间语句的准确标注方式无从确定,若第一音素集内已“h、 e、u、o”4个音素,则对于“和”的准确表示方式可模糊处理,即两种标注方法都适用。
步骤S33,若所述汉字对应的所有音素均包含在第一音素集内,则将所述第一音素集作为所述中间语句对应的音素集。
若所述汉字对应的所有音素均包含在第一音素集内,则无需确定具有不同音素标注方法的汉字在中间语句中的具体标注方式,可直接将第一音素作为对应的中间语句的音素集。
步骤S34,若所述汉字对应的所有音素未全包含在第一音素集内,则将所述汉字对应的所有音素从第一音素集中剔除,生成所述中间语句对应的音素集。
若所述汉字对应的所有音素未全包含在第一音素内,则在无法确定具有不同音素标注方法的汉字在中间语句中的标注方式,则将所述汉字对应的所有音素从对弈音素集中剔除,生成所述中间语句对应的音素集。
在本实施例中,通过将语句中具有多种音素标注方式即在现实中具有多种读音的文字的所有可能音素与第一音素集比对,判断对于该汉字对应音素的剔除或保留,保证了在语句由含有多种发音的文字构成时,生成标准语句的准确性和语句库的准确性。
进一步的,在本发明以上实施例的基础上,进一步提出了本发明语句库构建方法的第五实施例,本实施例是第一实施例中步骤S20 的细化步骤,所述语句库构建方法包括:
步骤c1,将初始语句与敏感词库中包含的敏感词进行比对。
步骤c2,若所述初始语句中包含敏感词库中的任一敏感词,则将所述初始语句舍弃。
步骤c3,若所述初始语句中不包含敏感词库中的任一敏感词,则将所述初始语句作为中间语句。
语句库构建设备将通过爬虫工具抓取的初始语句与预置的敏感词库中包含的敏感词进行比对,判断所述初始语句中是否包含敏感词,若所述初始语句中包含敏感词库中的任一敏感词,则将所述初始语句舍弃不用,若所述初始语句中不包含敏感词库中的任一敏感词,则视所述初始语句为可用,并作为中间语句。
在本实施例中,通过将爬虫抓取的初始语句与敏感词库比对,过滤包含敏感词的初始语句,提升了语句库的质量,同时通过过滤操作有选择的将抓取的语句进行后续处理节省设备算力。
进一步的,在本发明以上实施例的基础上,进一步提出了本发明语句库构建方法的第六实施例,本实施例是第一实施例中步骤S20 的细化步骤,所述语句库构建方法包括:
步骤d1,将所述初始语句输入自然语言处理模型,生成所述初始语句对应的情感评分。
步骤d2,判断所述情感评分是否处于预设区间内,若所述情感评分不处于预设区间内,则将所述初始语句舍弃。
步骤d3,若所述情感评分处于预设区间内,则将所述初始语句作为中间语句。
语句库构建设备将通过爬虫工具抓取的初始语句输入预置的自然语言处理模型,生成所述初始语句对应的情感评分,所述自然语言处理模型包含语义分析、情感分析等方法,在本实施例中,通过在语句库构建设备预置带有语句情感分析的自然语言处理模型,对输入的初始语句进行情感分析生成对应的情感评分,并判断所述情感评分是否处于预设区间内,若所述情感评分不处于预设区间内,则将所述初始语句舍弃,所述预设区间为认为设置的可调区间,可根据语句库的适用场景对应的情感接受程度进行调节,如设置所述预设区间处于表达积极情绪的区间,则可对表达消极情绪的语句进行过滤。
在本实施例中,通过将爬虫抓取的初始语句进行情感分析生成情感评分,并设置可变的预设区间对初始语句进行过滤,如过滤包含消极和愤怒情绪的语句使得最终构建的语句库情感倾向可控,使得语句库的构建方法适用于更多场景。
进一步的,在本发明以上实施例的基础上,进一步提出了本发明语句库构建方法的第七实施例,本实施例是第一实施例中步骤S50 的后置步骤,所述语句库构建方法包括:
步骤e1,对所述标准语句进行场景分类。
步骤e2,接收到标准语句生成指令时,获取指令中的预设场景标识。
步骤e3,查询语句库中预设场景标识对应场景分类下的标准语句,调取标准语句并输出。
在将标准语句写入语句库之后,对所述标准语句进行场景分类,所述场景分类可由人工进行或是由语句库构建设备进行,如语句库构建设备以前述情感评分为标准进行不同评分区间对应场景的划分,或是使用关键词比对的方法确定标准语句的适用场景并划分至对应场景分类下,在语句库构建设备接收到标准语句生成指令时,获取指令中的预设场景标识,所述标准语句生成指令可以是自动触发或人工输入,如通过按键、触摸屏、麦克风等装置输入触发的指令,所述预设场景标识为标准语句生成指令的可选组成部分,在标准语句生成指令带有由人工选择指定的预设场景标识时,语句库构建设备查询语句库中预设场景标识对应场景分类下的标准语句,调取所述标准语句并输出。
在本实施例中,通过对语句库中的标准语句进行场景分类,并通过带有场景标识的指令调用语句库红特定场景分类下的语句,满足了语句库在不同场景下的使用需求。
此外,本发明实施例还提出一种语句库构建装置,所述语句库构建装置包括:
语句抓取模块:用于接收到语句库构建指令时,使用爬虫工具从网络抓取初始语句;
过滤模块:用于过滤所述初始语句,生成中间语句;
音素集生成模块:用于对所述中间语句所包含的每个汉字进行音素标注,形成与所述中间语句对应的音素集;
判断模块:判断所述音素集是否等于预设全音素集;
写入模块:用于若所述音素集等于预设全音素集,则将所述音素集对应的中间语句作为标准语句写入语句库。
其中,语句库构建装置的各个功能模块实现的步骤可参照本发明语句库构建方法的各个实施例,此处不再赘述。
此外,本发明试试里还提出一种语句库构建设备,所述语句库构建设备包括:
存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中:
所述计算机程序被所述处理器执行时实现上述的语句库构建方法的步骤。
此外,本发明实施例还提出一种计算机存储介质。
所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例提供的语句库构建方法中的操作。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体/操作/对象与另一个实体/操作/对象区分开来,而不一定要求或者暗示这些实体/操作/对象之间存在任何这种实际的关系或者顺序;术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种语句库构建方法,其特征在于,所述语句库构建方法包括以下步骤:
接收到语句库构建指令时,使用爬虫工具从网络抓取初始语句;
过滤所述初始语句,生成中间语句;
对所述中间语句所包含的每个汉字进行音素标注,形成与所述中间语句对应的音素集;
判断所述音素集是否等于预设全音素集;
若所述音素集等于预设全音素集,则将所述音素集对应的中间语句作为标准语句写入语句库。
2.如权利要求1所述的语句库构建方法,其特征在于,所述判断所述音素集是否等于预设全音素集的步骤之后,包括:
若所述音素集不等于预设全音素集,则将所述音素集对应的中间语句作为候选语句写入候选语句库;
将候选语句库中的预设数量候选语句组合生成组合语句,并将的预设数量候选语句所对应的音素集进行组合得到并集,将所述并集作为候选音素集;
判断所述候选音素集是否等于预设全音素集;
若所述候选音素集等于预设全音素集,则将对应的组合语句作为标准语句写入语句库。
3.如权利要求2所述的语句库构建方法,其特征在于,所述若所述音素集不等于预设全音素集,则将所述音素集对应的中间语句作为候选语句写入候选语句库的步骤,包括:
若所述音素集不等于预设全音素集,则判断所述音素集包含的音素量占全音素量的比例;
若所述比例超过预设阈值,则将所述音素集对应的中间语句作为候选语句写入候选语句库。
4.如权利要求1所述的语句库构建方法,其特征在于,所述对所述中间语句所包含的每个汉字进行音素标注,形成与所述中间语句对应的音素集的步骤,包括:
对所述中间语句所包含的每个汉字进行音素标注,生成第一音素集;
若所述汉字对应多种不同的音素构成方法,则查询所述汉字对应的所有音素是否都存在第一音素集内;
若所述汉字对应的所有音素均包含在第一音素集内,则将所述第一音素集作为所述中间语句对应的音素集;
若所述汉字对应的所有音素未全包含在第一音素集内,则将所述汉字对应的所有音素从第一音素集中剔除,生成所述中间语句对应的音素集。
5.如权利要求1所述的语句库构建方法,其特征在于,所述过滤所述初始语句,生成中间语句的步骤包括:
将初始语句与敏感词库中包含的敏感词进行比对;
若所述初始语句中包含敏感词库中的任一敏感词,则将所述初始语句舍弃;
若所述初始语句中不包含敏感词库中的任一敏感词,则将所述初始语句作为中间语句。
6.如权利要求1所述的语句库构建方法,其特征在于,所述过滤所述初始语句,生成中间语句的步骤包括:
将所述初始语句输入自然语言处理模型,生成所述初始语句对应的情感评分;
判断所述情感评分是否处于预设区间内;
若所述情感评分不处于预设区间内,则将所述初始语句舍弃;
若所述情感评分处于预设区间内,则将所述初始语句作为中间语句。
7.如权利要求1至6任意一项所述的语句库构建方法,其特征在于,所述若所述音素集等于预设全音素集,则将所述音素集对应的中间语句作为标准语句写入语句库的步骤之后,包括:
对所述标准语句进行场景分类;
接收到标准语句生成指令时,获取指令中的预设场景标识;
查询语句库中预设场景标识对应场景分类下的标准语句,调取标准语句并输出。
8.一种语句库构建装置,其特征在于,所述语句库构建装置包括:
语句抓取模块:用于接收到语句库构建指令时,使用爬虫工具从网络抓取初始语句;
过滤模块:用于过滤所述初始语句,生成中间语句;
音素集生成模块:用于对所述中间语句所包含的每个汉字进行音素标注,形成与所述中间语句对应的音素集;
判断模块:判断所述音素集是否等于预设全音素集;
写入模块:用于若所述音素集等于预设全音素集,则将所述音素集对应的中间语句作为标准语句写入语句库。
9.一种语句库构建设备,其特征在于,所述语句库构建设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其中:
所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的语句库构建方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语句库构建方法的步骤。
CN202010401610.8A 2020-05-13 2020-05-13 语句库构建方法、装置、设备和存储介质 Active CN111666469B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010401610.8A CN111666469B (zh) 2020-05-13 2020-05-13 语句库构建方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010401610.8A CN111666469B (zh) 2020-05-13 2020-05-13 语句库构建方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN111666469A true CN111666469A (zh) 2020-09-15
CN111666469B CN111666469B (zh) 2023-06-16

Family

ID=72383479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010401610.8A Active CN111666469B (zh) 2020-05-13 2020-05-13 语句库构建方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN111666469B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1808567A (zh) * 2006-01-26 2006-07-26 覃文华 验证真人在场状态的声纹认证设备和其认证方法
US20100145699A1 (en) * 2008-12-09 2010-06-10 Nokia Corporation Adaptation of automatic speech recognition acoustic models
CN102779508A (zh) * 2012-03-31 2012-11-14 安徽科大讯飞信息科技股份有限公司 语音库生成设备及其方法、语音合成系统及其方法
US20130030810A1 (en) * 2011-07-28 2013-01-31 Tata Consultancy Services Limited Frugal method and system for creating speech corpus
CN104575497A (zh) * 2013-10-28 2015-04-29 中国科学院声学研究所 一种声学模型建立方法及基于该模型的语音解码方法
CN107680582A (zh) * 2017-07-28 2018-02-09 平安科技(深圳)有限公司 声学模型训练方法、语音识别方法、装置、设备及介质
US20180137855A1 (en) * 2016-11-16 2018-05-17 Samsung Electronics Co., Ltd. Method and apparatus for processing natural language, method and apparatus for training natural language processing model
CN109065032A (zh) * 2018-07-16 2018-12-21 杭州电子科技大学 一种基于深度卷积神经网络的外部语料库语音识别方法
CN110276070A (zh) * 2019-05-22 2019-09-24 广州多益网络股份有限公司 一种语料处理方法、装置及存储介质
CN110335608A (zh) * 2019-06-17 2019-10-15 平安科技(深圳)有限公司 声纹验证方法、装置、设备及存储介质
CN110556093A (zh) * 2019-09-17 2019-12-10 浙江核新同花顺网络信息股份有限公司 一种语音标注方法及其系统
CN110827803A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 方言发音词典的构建方法、装置、设备及可读存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1808567A (zh) * 2006-01-26 2006-07-26 覃文华 验证真人在场状态的声纹认证设备和其认证方法
US20100145699A1 (en) * 2008-12-09 2010-06-10 Nokia Corporation Adaptation of automatic speech recognition acoustic models
US20130030810A1 (en) * 2011-07-28 2013-01-31 Tata Consultancy Services Limited Frugal method and system for creating speech corpus
CN102779508A (zh) * 2012-03-31 2012-11-14 安徽科大讯飞信息科技股份有限公司 语音库生成设备及其方法、语音合成系统及其方法
CN104575497A (zh) * 2013-10-28 2015-04-29 中国科学院声学研究所 一种声学模型建立方法及基于该模型的语音解码方法
US20180137855A1 (en) * 2016-11-16 2018-05-17 Samsung Electronics Co., Ltd. Method and apparatus for processing natural language, method and apparatus for training natural language processing model
CN107680582A (zh) * 2017-07-28 2018-02-09 平安科技(深圳)有限公司 声学模型训练方法、语音识别方法、装置、设备及介质
CN109065032A (zh) * 2018-07-16 2018-12-21 杭州电子科技大学 一种基于深度卷积神经网络的外部语料库语音识别方法
CN110276070A (zh) * 2019-05-22 2019-09-24 广州多益网络股份有限公司 一种语料处理方法、装置及存储介质
CN110335608A (zh) * 2019-06-17 2019-10-15 平安科技(深圳)有限公司 声纹验证方法、装置、设备及存储介质
CN110556093A (zh) * 2019-09-17 2019-12-10 浙江核新同花顺网络信息股份有限公司 一种语音标注方法及其系统
CN110827803A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 方言发音词典的构建方法、装置、设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄晓辉 等: ""藏语口语语音语料库的设计与研究"" *

Also Published As

Publication number Publication date
CN111666469B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN112804400B (zh) 客服呼叫语音质检方法、装置、电子设备及存储介质
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
US8676586B2 (en) Method and apparatus for interaction or discourse analytics
CN107562760B (zh) 一种语音数据处理方法及装置
KR101605430B1 (ko) 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법
WO2021159902A1 (zh) 年龄识别方法、装置、设备及计算机可读存储介质
CN112468659B (zh) 应用于电话客服的质量评价方法、装置、设备及存储介质
CN111462758A (zh) 智能会议角色分类的方法、装置、设备及存储介质
CN111159987A (zh) 数据图表绘制方法、装置、设备和计算机可读存储介质
JP6208794B2 (ja) 会話分析装置、方法及びコンピュータプログラム
CN111144360A (zh) 多模信息识别方法、装置、存储介质及电子设备
CN111062221A (zh) 数据处理方法、装置、电子设备以及存储介质
CN113434670A (zh) 话术文本生成方法、装置、计算机设备和存储介质
CN113782026A (zh) 一种信息处理方法、装置、介质和设备
KR102283134B1 (ko) 회의록 열람 문서 생성 방법 및 그 장치
CN113516994B (zh) 实时语音识别方法、装置、设备及介质
CN113726942A (zh) 一种智能电话接听方法、系统、介质及电子终端
CN114491010A (zh) 信息抽取模型的训练方法及装置
CN109800430B (zh) 一种语义理解方法及系统
CN111640450A (zh) 多人声音频处理方法、装置、设备及可读存储介质
KR20130073709A (ko) 영상 및 음성 정보를 이용한 명함 인식 방법 및 장치
CN111666469B (zh) 语句库构建方法、装置、设备和存储介质
JP6733901B2 (ja) 心理分析装置、心理分析方法、およびプログラム
WO2021073258A1 (zh) 基于情绪分析的任务跟催方法、装置、设备及存储介质
CN109446527B (zh) 一种无意义语料的分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant