CN106710593B - 一种添加账号的方法、终端、服务器 - Google Patents
一种添加账号的方法、终端、服务器 Download PDFInfo
- Publication number
- CN106710593B CN106710593B CN201510791070.8A CN201510791070A CN106710593B CN 106710593 B CN106710593 B CN 106710593B CN 201510791070 A CN201510791070 A CN 201510791070A CN 106710593 B CN106710593 B CN 106710593B
- Authority
- CN
- China
- Prior art keywords
- account
- information
- matched
- voiceprint information
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000009432 framing Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 25
- 230000001629 suppression Effects 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 description 22
- 239000000284 extract Substances 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000012795 verification Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013478 data encryption standard Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 210000003928 nasal cavity Anatomy 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004793 poor memory Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/20—Services signaling; Auxiliary data signalling, i.e. transmitting data via a non-traffic channel
- H04W4/21—Services signaling; Auxiliary data signalling, i.e. transmitting data via a non-traffic channel for social networking applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4594—Address books, i.e. directories containing contact information about correspondents
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/52—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3226—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials using a predetermined code, e.g. password, passphrase or PIN
- H04L9/3231—Biological data, e.g. fingerprint, voice or retina
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/04—Real-time or near real-time messaging, e.g. instant messaging [IM]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Game Theory and Decision Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Telephonic Communication Services (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Telephone Function (AREA)
Abstract
本发明公开了一种添加账号的方法、终端、服务器,包括:终端采集语音信息;对所述语音信息进行解析,提取出字符串信息和声纹信息;向服务器发送所述字符串信息和声纹信息;接收所述服务器发送的与所述字符串信息和声纹信息相匹配的账号;将所述账号添加至账号列表中。
Description
技术领域
本发明涉及社交领域中的账号管理技术,尤其涉及一种添加账号的方法、终端、服务器。
背景技术
随着社交网络的快速发展,越来越多的用户频繁使用社交类的应用(APP,APPlication)进行信息交互。使用社交类的APP时,经常需要添加好友至联系人列表中。最常见、最直接的添加好友方法是询问对方的社交号码,当对方说出自己的社交号码后,用户需要在添加好友页面上输入很多字符,有时需要反复确认所输入的字符是否正确。尤其当对方的社交号码比较长、比较繁琐时,对于记忆较差的用户来说经常会出现漏输入或者错误输入。
此外,每个人的语速不同,有些人说话不标准或者带有一些方言口音,这给输入字符的用户带来了很大的麻烦。并且,由于社交号码通常由字母、数字和特殊字符组成,对于移动设备而言,需要经常在字母键盘和数字符号键盘之间进行切换,使得添加好友的操作极其不便。
发明内容
为解决上述技术问题,本发明实施例提供了一种添加账号的方法、终端、服务器。
本发明实施例提供的添加账号的方法,包括:
采集语音信息;
对所述语音信息进行解析,提取出字符串信息和声纹信息;
向服务器发送所述字符串信息和声纹信息,以使服务器在数据库中查找与所述字符串信息相匹配的账号,以及,
将所述相匹配的账号所对应的声纹信息与所述从语音中提取的声纹信息进行相似度比较,当所述相匹配的账号所对应的声纹信息与所述从语音中提取的声纹信息之间的相似度大于等于第一预设阈值时,确认所述账号为与所述字符串信息和所述从语音中提取的声纹信息相匹配的账号;
接收所述服务器发送的与所述字符串信息和所述从语音中提取的声纹信息相匹配的账号;
将所述账号添加至账号列表中。
本发明实施例中,所述对所述语音信息进行解析,提取出字符串信息和声纹信息,包括:
对所述语音信息进行静音抑制;
对静音抑制后的所述语音信息进行分帧处理;
对分帧处理后的所述语音信息进行声音特征值提取,所提取的声音特征值表征所述声纹信息;
对所提取的声音特征值进行解码处理,得到所述字符串信息。
本发明另一实施例提供的添加账号的方法,包括:
接收终端发送的字符串信息和声纹信息;
在数据库中查找与所述字符串信息和声纹信息相匹配的账号;
向所述终端发送与所述字符串信息和声纹信息相匹配的账号,以使所述终端将所述账号添加至账号列表中。
本发明实施例中,所述在数据库中查找与所述字符串信息和声纹信息相匹配的账号,包括:
在数据库中查找与所述字符串信息相匹配的账号;
将所述相匹配的账号所对应的声纹信息与所述从语音中提取的声纹信息进行相似度比较,当所述相匹配的账号所对应的声纹信息与所述从语音中提取的声纹信息之间的相似度大于等于第一预设阈值时,确认所述账号为与所述字符串信息和所述从语音中提取的声纹信息相匹配的账号;
当查找到两个以上相匹配的账号时,在所述两个以上相匹配的账号中查找与所述声纹信息相匹配的账号,作为与所述字符串信息和声纹信息相匹配的账号。
本发明实施例中,所述数据库中存储有与所述两个以上相匹配的账号所对应的声纹信息;
所述在所述两个以上相匹配的账号中查找与所述声纹信息相匹配的账号,包括:
将所述声纹信息与所述两个以上相匹配的账号所对应的声纹信息分别进行相似度比较;
当存在相似度大于等于第一预设阈值的账号时,将所述账号作为与所述声纹信息相匹配的账号。
本发明实施例中,所述方法还包括:
当不存在相似度大于等于第一预设阈值的账号时,将相似度大于等于第二预设阈值的账号发送至所述终端;所述第二预设阈值小于所述第一预设阈值。
本发明实施例中,所述方法还包括:
当查找到一个相匹配的账号时,将所述声纹信息与所述相匹配的账号所对应的声纹信息进行相似度比较;
当相似度大于等于第一预设阈值时,将所述账号作为与所述声纹信息相匹配的账号。
本发明实施例提供的终端,包括:
采集单元,用于采集语音信息;
提取单元,用于对所述语音信息进行解析,提取出字符串信息和声纹信息;
发送单元,用于向服务器发送所述字符串信息和声纹信息;
将所述相匹配的账号所对应的声纹信息与所述从语音中提取的声纹信息进行相似度比较,当所述相匹配的账号所对应的声纹信息与所述从语音中提取的声纹信息之间的相似度大于等于第一预设阈值时,确认所述账号为与所述字符串信息和所述从语音中提取的声纹信息相匹配的账号;
接收单元,用于接收所述服务器发送的与所述字符串信息和所述从语音中提取的声纹信息相匹配的账号;
添加单元,用于将所述账号添加至账号列表中。
本发明实施例中,所述提取单元包括:
静音抑制子单元,用于对所述语音信息进行静音抑制;
分帧子单元,用于对静音抑制后的所述语音信息进行分帧处理;
特征值提取单元,用于对分帧处理后的所述语音信息进行声音特征值提取,所提取的声音特征值表征所述声纹信息;
解码单元,用于对所提取的声音特征值进行解码处理,得到所述字符串信息。
本发明实施例提供的服务器,包括:
接收单元,用于接收终端发送的字符串信息和声纹信息;
查找单元,用于在数据库中查找与所述字符串信息和声纹信息相匹配的账号;将所述相匹配的账号所对应的声纹信息与所述从语音中提取的声纹信息进行相似度比较,当所述相匹配的账号所对应的声纹信息与所述从语音中提取的声纹信息之间的相似度大于等于第一预设阈值时,确认所述账号为与所述字符串信息和所述从语音中提取的声纹信息相匹配的账号;
发送单元,用于向所述终端发送与所述字符串信息和声纹信息相匹配的账号,以使所述终端将所述账号添加至账号列表中。
本发明实施例中,所述查找单元包括:
第一查找子单元,用于在数据库中查找与所述字符串信息相匹配的账号;
第二查找子单元,用于当查找到两个以上相匹配的账号时,在所述两个以上相匹配的账号中查找与所述声纹信息相匹配的账号,作为与所述字符串信息和声纹信息相匹配的账号。
本发明实施例中,所述数据库中存储有与所述两个以上相匹配的账号所对应的声纹信息;
所述第二查找子单元,还用于将所述声纹信息与所述两个以上相匹配的账号所对应的声纹信息分别进行相似度比较;当存在相似度大于等于第一预设阈值的账号时,将所述账号作为与所述声纹信息相匹配的账号。
本发明实施例中,所述发送单元,还用于当不存在相似度大于等于第一预设阈值的账号时,将相似度大于等于第二预设阈值的账号发送至所述终端;所述第二预设阈值小于所述第一预设阈值。
本发明实施例中,所述第二查找子单元,还用于当查找到一个相匹配的账号时,将所述声纹信息与所述相匹配的账号所对应的声纹信息进行相似度比较;当相似度大于等于第一预设阈值时,将所述账号作为与所述声纹信息相匹配的账号。
本发明实施例的技术方案中,终端采集语音信息,并对所述语音信息进行解析,提取出字符串信息和声纹信息;然后,将所述字符串信息和声纹信息发送至服务器。服务器接收到终端发送的字符串信息和声纹信息后,在数据库中查找与所述字符串信息和声纹信息相匹配的账号;向所述终端发送与所述字符串信息和声纹信息相匹配的账号。终端将所述服务器发送的与所述字符串信息和声纹信息相匹配的账号添加至自己的账号列表中,从而完成好友账号的添加。可见,本发明实施例为用户提供了一个直观、快速、有效的添加对方为好友的方案,用户在添加好友时,只需等待对方说出自己的社交号码,便可以完成添加好友的功能。此外,通过声纹信息确定对方是否是社交号码所有人,确保了社交号码的安全性,并且,基于声纹信息对社交号码进行匹配进一步提高了匹配的准确度。让用户告别在社交类的APP中输入繁琐、冗长的社交号码的操作,尤其是涉及到大小写、特殊字符、冗长的社交号码。本发明实施例的技术方案针对多语言环境、残障人士、老人孩子等更具有适用性。
附图说明
图1为本发明实施例一的添加账号的方法的流程示意图;
图2为本发明实施例二的添加账号的方法的流程示意图;
图3为本发明实施例三的添加账号的方法的流程示意图;
图4为本发明实施例的账号的声纹信息绑定的流程示意图;
图5为本发明实施例的终端的结构组成示意图;
图6为本发明实施例的服务器的结构组成示意图。
具体实施方式
为了能够更加详尽地了解本发明实施例的特点与技术内容,下面结合附图对本发明实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明实施例。
本发明实施例基于语音识别技术实现好友账号的添加,基于语音识别技术的产品包括语音输入法、微信中语音转文字等。语音识别技术可以相当准确的识别数字、字母等,即使语音中带有地区方言或者个人说话习惯,语音识别技术也可以很好的进行识别。本发明实施例使用语音识别技术,将个人的账号(也称为社交号码)从语音中提取出来,从而在添加好友时,避免输入繁琐的账号,使添加好友的操作更加便捷。本发明实施例的技术方案尤其适合老人、残障人士、儿童等不方便进行手写输入的人士使用。
相比之前的通过语音添加好友,本发明实施例还特别从语音中提取出声纹信息,当语音识别出的字符串信息无法唯一确定账号时,可以利用声纹信息唯一确定账号。此外,声纹信息可以用来判断录入语音的人是否为账号所有者,如果是,可以跳过好友验证,直接添加对方的账号为好友。
本发明实施例旨在为社交平台提供一种新的添加账号的方法。要添加对方账号时,终端只需要通过麦克风来采集对方说出的账号的语音、或者直接接收对方发送的语音(如视频通话);然后,从语音中提取用户说出的字符串信息,以及用户的声纹信息;将字符串信息和声纹信息上传至服务器。服务器根据字符串信息和声纹信息查找到匹配的账号时,将账号反馈给终端。这样,便可无需使用键盘输入对方账号,即可完成添加对方账号的操作。
本发明实施例的技术方案主要涉及两个执行主体:终端、服务器。其中,
终端,主要采集带有用户账号信息的语音信息,对所述语音信息进行解析,提取出字符串信息和声纹信息;将字符串信息和声纹信息上传到服务器。
服务器,主要根据字符串信息和声纹信息,在数据库中查找相匹配的账号,并反馈给终端。
下面结合具体处理流程对本发明实施例的添加账号的方法作进一步详细描述。
图1为本发明实施例一的添加账号的方法的流程示意图,本示例中的添加账号的方法应用于终端侧,如图1所示,所述添加账号的方法包括以下步骤:
步骤101:采集语音信息。
本发明实施例中,所述终端可以是手机、平板电脑、笔记本等电子设备。
本发明实施例中,终端安装有社交类的APP,APP具有添加账号的功能,特别地,本示例中的APP添加账号是通过语音方式进行添加的,为此,在APP的界面上新设置有一控件,通过触发该控件能够启动语音添加账号功能,从而调用终端的语音采集功能,采集语音信息。
上述方案中,触发控件可以通过但不限于以下方式:单机触发、双击触发、手势触发、滑动触发等。
本发明实施例中,采集语音信息分为以下两种采集方式:
第一种采集方式:通过终端中的采集单元直接采集语音信息,这里,采集单元可由麦克风实现。实际应用中,当用户触发控件而启动语音添加账号功能时,对方对着终端的采集单元(例如麦克风),说出他的账号的语音;这样,采集单元便可采集到含有账号的语音信息。这里,账号是指与APP对应的社交号码,即对方在APP上所注册的社交号码。
第二种采集方式:对方通过其终端录入他的账号的语音,然后将该语音信息发送给用户的终端,这样,用户的终端接收到对方发送的语音信息,这种情况可以在语音通话或者视频通话过程中实施,也可以直接由对方发送一段语音信息给用户。
步骤102:对所述语音信息进行解析,提取出字符串信息和声纹信息。
具体地,对所述语音信息进行静音抑制;对静音抑制后的所述语音信息进行分帧处理;对分帧处理后的所述语音信息进行声音特征值提取,所提取的声音特征值表征所述声纹信息;对所提取的声音特征值进行解码处理,得到所述字符串信息。
本发明实施例中,语音信息若是压缩格式,例如动态影像专家压缩标准音频层面3(MP3,Moving Picture Experts Group Audio Layer III)格式、流媒体(WMV,WindowsMedia Video)格式,则必须将压缩格式的语音信息转成非压缩格式的纯波形文件,例如脉冲编码调制(PCM,Pulse Code Modulation)格式、波形(WAV,WAVe)格式。WAV文件里存储了除了一个文件头以外,就是声音波形的点数据了。
本发明实施例中,对所述语音信息进行解析即为对所述语音信息进行识别。在开始识别语音信息之前,通常需要把首尾端的静音切除,降低对后续步骤造成的干扰。这个静音切除的操作称为静音抑制(VAD,Voice Activity Detection),需要用到信号处理技术。
静音切除后,就要进行分帧,具体地分帧操作通常使用移动窗函数来实现,分帧之前还要做一些预加重等操作。帧与帧之间具有交叠,通常每一帧25ms,两帧之间帧移10ms,两帧有15ms重叠,如0~25ms、10~35ms、20~45ms……分别为第一、第二、第三帧……。
分帧后,对每帧波形进行变换,例如提取梅尔频率倒谱系数(MFCC,梅尔频率倒谱系数)特征,把每一帧波形变成一个12维向量。这12个点是根据人耳的生理特性提取的,这12个点包含了这帧语音信息的全部信息。这个过程也称为声音特征值提取。实际应用中,声音特征值提取还包括很多操作,例如差分、均值方差规整、高斯化、降维去冗余等。声音特征值即为用户的声纹信息。声音特征值提取后,声音信息就成了一个12行(假设声音特征值是12维),N列的矩阵,称之为观察序列,这里,N为总帧数。
语音识别的核心就是将上述以声音特征值表示的帧识别成状态,再将状态识别组合成音素,最后将音素组合成单词。具体地,若干帧对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。每帧音素对应的状态通过判断该帧音素对应哪个状态的概率最大进行确定。概率的确定基于声学模型,声学模型存储了参数,通过这些参数即可确定出各个状态对应的概率。利用隐马尔科夫模型(HMM,Hidden Markov Model),构建一个状态网络,语音识别过程是在状态网络中搜索一条最佳路径,该路径的概率最大,这个过程称为解码处理,解码处理后,便得到声音信息对应的字符串信息。
本发明实施例中,由于账号通常有只有26个字母和10个数字组成(可能有部分被允许特殊字符),所以,本发明实施例中的语音识别准确率比语音输入法、语音转文字等通用的识别要高很多。这里,可能出现中间某几个字符无法识别出来,无法识别为一个完整的字符串信息,最终可能识别为几段字符串,如“185021?1234”,中间无法识别便会识别为两段“185021”和“1234”。
本发明实施例中,APP一般设置有账号的约束规则,如果提取出的字符串信息中含有非法字符(不满足约束规则)时,则重新采集语音信息。
步骤103:向服务器发送所述字符串信息和声纹信息。
本发明实施例中,终端从语音信息中提取出字符串信息和声纹信息后,将这两个信息发送给服务器。
本发明实施例中,终端可以对字符串信息和声纹信息进行加密,以保证字符串信息和声纹信息的安全性,然后,将加密后的字符串信息和声纹信息发送给服务器。相应地,服务器接收到信息后需进行解密,便可得到字符串信息和声纹信息。这里,加密解密可按照但不限于以下算法进行:高级加密标准(AES,Advanced Encryption Standard)、数据加密标准(DES,Data Encryption Standard)、公钥加密算法(RSA,Ron Rivest、Adi Shamir、Leonard Adleman)等。
步骤104:接收所述服务器发送的与所述字符串信息和声纹信息相匹配的账号。
本发明实施例中,服务器接收到终端发送的字符串信息和声纹信息后,根据字符串信息和声纹信息从数据库中匹配出最佳的账号,并反馈给终端。其中,服务器首先根据字符串信息进行账号初步匹配,然后在匹配的结果中再根据声纹信息进行账号的精确匹配。
这里,声纹(Voiceprint)是用电声学仪器显示的携带言语信息的声波频谱。由于每个人舌头、喉腔、鼻腔等生理特征不一,每个人声纹都有差异,一般情况下不会出现太大变化,即便疾病、手术仍然会有不错的相似度。当字符串信息(可包括多个字段)匹配出多个账号时,如果匹配出的账号绑定有声纹信息,将各个账号的声纹信息与从语音中提取出的声纹信息进行相似度比较,具体地,将特征值进行相似度比较。如果有相似度大于等于第一预设阈值,则可确定两个声纹信息属于同一个人,直接将该账号返回给终端。如果没有相似度大于等于第一预设阈值,可以将相似度太低的账号丢弃,仅仅将相似度大于等于第二预设阈值的账号发送给终端;或结合字符串匹配结果,返回一个账号列表给用户。
本发明实施例中,如果终端提取到的是几段字符串(几段字符串可能因为中间有部分字符无法识别、停顿过长等),服务器需要通过正则表达式进行账号匹配。此外,服务器优先匹配绑定有声纹信息的账号。
本发明实施例中,当服务器查找到一个相匹配的账号时,将所述声纹信息与所述相匹配的账号所对应的声纹信息进行相似度比较;当相似度大于等于第一预设阈值时,将所述账号作为与所述声纹信息相匹配的账号。根据用户的设置,如果设置为不允许跳过好友验证阶段,则向终端发送账号,用户可以选择“添加为好友”或“关注”好友;如果设置为允许跳过好友验证阶段,直接将该账号添加至账号列表中,完成好友添加。这里,第一预设阈值用于限定相似度,大于等于第一预设阈值,则表面相似度较高,可判定两个声纹信息属于同一个人。
本发明实施例中,当服务器查找到两个以上相匹配的账号时,在所述两个以上相匹配的账号中查找与所述声纹信息相匹配的账号,作为与所述字符串信息和声纹信息相匹配的账号。具体地,将所述声纹信息与所述两个以上相匹配的账号所对应的声纹信息分别进行相似度比较;当存在相似度大于等于第一预设阈值的账号时,将所述账号作为与所述声纹信息相匹配的账号。当不存在相似度大于等于第一预设阈值的账号时,将相似度大于等于第二预设阈值的账号发送至所述终端;所述第二预设阈值小于所述第一预设阈值。这里,第二预设阈值用于去除相似度差异太大的账号,从而向终端发送一个相似度账号列表,用户可以点击查看账号列表,选择其中一个账号“添加为好友”或“关注”。
步骤105:将所述账号添加至账号列表中。
本发明实施例中,用户需要添加好友时,只需要通过麦克风录下对方说出的账号的语音,便可以无需手动使用键盘输入对方的账号,实现账号的添加。语音采集结束后,提取出字符串信息和声纹信息。服务器查找到与字符串信息和声纹信息匹配的账号反馈给终端。其中,声纹信息相对字符串信息匹配较慢,先根据字符串信息匹配出合适的账号范围;在账号范围内再进行声纹信息的匹配。声纹信息可以确认声音是否属于账号所有者,进而可以跳过添加好友提示的确认的环节,直接将二人添加为好友,快速开始聊天。相比语音识别账号添加好友,本发明实施例增加了声纹信息的匹配,提高了账号匹配的准确率。当输入的声纹信息与账号绑定的声纹信息相似度超过一定阈值时,可以跳过好友验证环节,直接将两人加为好友,简化了步骤。
本发明实施例的技术方案主要应用场景有:
1)两个用户要添加对方为好友时,在添加好友页面中,选择使用“语音添加好友”功能。按下语音输入按钮,等对方说出自己的账号后,完成语音输入。然后,对麦克风采集到声音信息进行处理,提取出字符串信息、声纹信息。将字符串信息、声纹信息上传到服务器。服务器从数据库中匹配出合适的账号。
2)一些特殊的个人或机构,可以将自己账号的信息(语音信息)公布到公共的网络上。他人可以根据账号信息(语音信息)快速地对这些账号进行添加好友或关注。
图2为本发明实施例二的添加账号的方法的流程示意图,本示例中的添加账号的方法应用于服务器侧,如图2所示,所述添加账号的方法包括以下步骤:
步骤201:接收终端发送的字符串信息和声纹信息。
本发明实施例中,终端可以是手机、平板电脑、笔记本等电子设备。终端安装有社交类的APP,APP具有添加账号的功能,特别地,本示例中的APP添加账号是通过语音方式进行添加的,为此,在APP的界面上新设置有一控件,通过触发该控件能够启动语音添加账号功能,从而调用终端的语音采集功能,采集语音信息。终端对所述语音信息进行解析,提取出字符串信息和声纹信息。具体地,对所述语音信息进行静音抑制;对静音抑制后的所述语音信息进行分帧处理;对分帧处理后的所述语音信息进行声音特征值提取,所提取的声音特征值表征所述声纹信息;对所提取的声音特征值进行解码处理,得到所述字符串信息。
服务器接收终端发送的字符串信息和声纹信息。
步骤202:在数据库中查找与所述字符串信息和声纹信息相匹配的账号。
本发明实施例中,服务器接收到终端发送的字符串信息和声纹信息后,根据字符串信息和声纹信息从数据库中匹配出最佳的账号,并反馈给终端。其中,服务器首先根据字符串信息进行账号初步匹配,然后在匹配的结果中再根据声纹信息进行账号的精确匹配。
这里,声纹(Voiceprint)是用电声学仪器显示的携带言语信息的声波频谱。由于每个人舌头、喉腔、鼻腔等生理特征不一,每个人声纹都有差异,一般情况下不会出现太大变化,即便疾病、手术仍然会有不错的相似度。当字符串信息(可包括多个字段)匹配出多个账号时,如果匹配出的账号绑定有声纹信息,将各个账号的声纹信息与从语音中提取出的声纹信息进行相似度比较,具体地,将特征值进行相似度比较。如果有相似度大于等于第一预设阈值,则可确定两个声纹信息属于同一个人,直接将该账号返回给终端。如果没有相似度大于等于第一预设阈值,可以将相似度太低的账号丢弃,仅仅将相似度大于等于第二预设阈值的账号发送给终端;或结合字符串匹配结果,返回一个账号列表给用户。
本发明实施例中,如果终端提取到的是几段字符串(几段字符串可能因为中间有部分字符无法识别、停顿过长等),服务器需要通过正则表达式进行账号匹配。此外,服务器优先匹配绑定有声纹信息的账号。
本发明实施例中,当服务器查找到一个相匹配的账号时,将所述声纹信息与所述相匹配的账号所对应的声纹信息进行相似度比较;当相似度大于等于第一预设阈值时,将所述账号作为与所述声纹信息相匹配的账号。根据用户的设置,如果设置为不允许跳过好友验证阶段,则向终端发送账号,用户可以选择“添加为好友”或“关注”好友;如果设置为允许跳过好友验证阶段,直接将该账号添加至账号列表中,完成好友添加。这里,第一预设阈值用于限定相似度,大于等于第一预设阈值,则表面相似度较高,可判定两个声纹信息属于同一个人。
本发明实施例中,当服务器查找到两个以上相匹配的账号时,在所述两个以上相匹配的账号中查找与所述声纹信息相匹配的账号,作为与所述字符串信息和声纹信息相匹配的账号。具体地,将所述声纹信息与所述两个以上相匹配的账号所对应的声纹信息分别进行相似度比较;当存在相似度大于等于第一预设阈值的账号时,将所述账号作为与所述声纹信息相匹配的账号。当不存在相似度大于等于第一预设阈值的账号时,将相似度大于等于第二预设阈值的账号发送至所述终端;所述第二预设阈值小于所述第一预设阈值。这里,第二预设阈值用于去除相似度差异太大的账号,从而向终端发送一个相似度账号列表,用户可以点击查看账号列表,选择其中一个账号“添加为好友”或“关注”。
步骤203:向所述终端发送与所述字符串信息和声纹信息相匹配的账号,以使所述终端将所述账号添加至账号列表中。
本发明实施例为用户提供了一个直观、快速、有效的添加对方为好友的方法。在添加好友时,打开“语音添加好友”功能,等待对方说出自己的账号,便可以完成添加好友的功能。此外,为了账号的安全,通过声纹信息确定当前账号的使用者是否是账号所有人。如果说出号码的声纹信息和该账号的声纹信息一致,则可直接跳过好友验证环节,直接添加对方为好友。
图3为本发明实施例三的添加账号的方法的流程示意图,本示例中的添加账号的方法应用于终端与服务器,如图3所示,所述添加账号的方法包括以下步骤:
步骤301:终端采集语音信息。
本发明实施例中,所述终端可以是手机、平板电脑、笔记本等电子设备。
本发明实施例中,终端安装有社交类的APP,APP具有添加账号的功能,特别地,本示例中的APP添加账号是通过语音方式进行添加的,为此,在APP的界面上新设置有一控件,通过触发该控件能够启动语音添加账号功能,从而调用终端的语音采集功能,采集语音信息。
上述方案中,触发控件可以通过但不限于以下方式:单机触发、双击触发、手势触发、滑动触发等。
本发明实施例中,采集语音信息分为以下两种采集方式:
第一种采集方式:通过终端中的采集单元直接采集语音信息,这里,采集单元可由麦克风实现。实际应用中,当用户触发控件而启动语音添加账号功能时,对方对着终端的采集单元(例如麦克风),说出他的账号的语音;这样,采集单元便可采集到含有账号的语音信息。这里,账号是指与APP对应的社交号码,即对方在APP上所注册的社交号码。
第二种采集方式:对方通过其终端录入他的账号的语音,然后将该语音信息发送给用户的终端,这样,用户的终端接收到对方发送的语音信息,这种情况可以在语音通话或者视频通话过程中实施,也可以直接由对方发送一段语音信息给用户。
步骤302:终端对所述语音信息进行解析,提取出字符串信息和声纹信息。
具体地,对所述语音信息进行静音抑制;对静音抑制后的所述语音信息进行分帧处理;对分帧处理后的所述语音信息进行声音特征值提取,所提取的声音特征值表征所述声纹信息;对所提取的声音特征值进行解码处理,得到所述字符串信息。
本发明实施例中,语音信息若是压缩格式,例如MP3格式、WMV格式,则必须将压缩格式的语音信息转成非压缩格式的纯波形文件,例如PCM格式、WAV格式。WAV文件里存储了除了一个文件头以外,就是声音波形的点数据了。
本发明实施例中,对所述语音信息进行解析即为对所述语音信息进行识别。在开始识别语音信息之前,通常需要把首尾端的静音切除,降低对后续步骤造成的干扰。这个静音切除的操作称为VAD,需要用到信号处理技术。
静音切除后,就要进行分帧,具体地分帧操作通常使用移动窗函数来实现,分帧之前还要做一些预加重等操作。帧与帧之间具有交叠,通常每一帧25ms,两帧之间帧移10ms,两帧有15ms重叠,如0~25ms、10~35ms、20~45ms……分别为第一、第二、第三帧……。
分帧后,对每帧波形进行变换,例如提取梅尔频率倒谱系数(MFCC,梅尔频率倒谱系数)特征,把每一帧波形变成一个12维向量。这12个点是根据人耳的生理特性提取的,这12个点包含了这帧语音信息的全部信息。这个过程也称为声音特征值提取。实际应用中,声音特征值提取还包括很多操作,例如差分、均值方差规整、高斯化、降维去冗余等。声音特征值即为用户的声纹信息。声音特征值提取后,声音信息就成了一个12行(假设声音特征值是12维),N列的矩阵,称之为观察序列,这里,N为总帧数。
语音识别的核心就是将上述以声音特征值表示的帧识别成状态,再将状态识别组合成音素,最后将音素组合成单词。具体地,若干帧对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。每帧音素对应的状态通过判断该帧音素对应哪个状态的概率最大进行确定。概率的确定基于声学模型,声学模型存储了参数,通过这些参数即可确定出各个状态对应的概率。利用HMM,构建一个状态网络,语音识别过程是在状态网络中搜索一条最佳路径,该路径的概率最大,这个过程称为解码处理,解码处理后,便得到声音信息对应的字符串信息。
本发明实施例中,由于账号通常有只有26个字母和10个数字组成(可能有部分被允许特殊字符),所以,本发明实施例中的语音识别准确率比语音输入法、语音转文字等通用的识别要高很多。这里,可能出现中间某几个字符无法识别出来,无法识别为一个完整的字符串信息,最终可能识别为几段字符串,如“185021?1234”,中间无法识别便会识别为两段“185021”和“1234”。
本发明实施例中,APP一般设置有账号的约束规则,如果提取出的字符串信息中含有非法字符(不满足约束规则)时,则重新采集语音信息。
步骤303:终端向服务器发送所述字符串信息和声纹信息。
本发明实施例中,终端从语音信息中提取出字符串信息和声纹信息后,将这两个信息发送给服务器。
本发明实施例中,终端可以对字符串信息和声纹信息进行加密,以保证字符串信息和声纹信息的安全性,然后,将加密后的字符串信息和声纹信息发送给服务器。相应地,服务器接收到信息后需进行解密,便可得到字符串信息和声纹信息。这里,加密解密可按照但不限于以下算法进行:AES、DES、RSA等。
步骤304:服务器在数据库中查找与所述字符串信息和声纹信息相匹配的账号。
本发明实施例中,服务器接收到终端发送的字符串信息和声纹信息后,根据字符串信息和声纹信息从数据库中匹配出最佳的账号,并反馈给终端。其中,服务器首先根据字符串信息进行账号初步匹配,然后在匹配的结果中再根据声纹信息进行账号的精确匹配。
这里,声纹是用电声学仪器显示的携带言语信息的声波频谱。由于每个人舌头、喉腔、鼻腔等生理特征不一,每个人声纹都有差异,一般情况下不会出现太大变化,即便疾病、手术仍然会有不错的相似度。当字符串信息(可包括多个字段)匹配出多个账号时,如果匹配出的账号绑定有声纹信息,将各个账号的声纹信息与从语音中提取出的声纹信息进行相似度比较,具体地,将特征值进行相似度比较。如果有相似度大于等于第一预设阈值,则可确定两个声纹信息属于同一个人,直接将该账号返回给终端。如果没有相似度大于等于第一预设阈值,可以将相似度太低的账号丢弃,仅仅将相似度大于等于第二预设阈值的账号发送给终端;或结合字符串匹配结果,返回一个账号列表给用户。
本发明实施例中,如果终端提取到的是几段字符串(几段字符串可能因为中间有部分字符无法识别、停顿过长等),服务器需要通过正则表达式进行账号匹配。此外,服务器优先匹配绑定有声纹信息的账号。
本发明实施例中,当服务器查找到一个相匹配的账号时,将所述声纹信息与所述相匹配的账号所对应的声纹信息进行相似度比较;当相似度大于等于第一预设阈值时,将所述账号作为与所述声纹信息相匹配的账号。根据用户的设置,如果设置为不允许跳过好友验证阶段,则向终端发送账号,用户可以选择“添加为好友”或“关注”好友;如果设置为允许跳过好友验证阶段,直接将该账号添加至账号列表中,完成好友添加。这里,第一预设阈值用于限定相似度,大于等于第一预设阈值,则表面相似度较高,可判定两个声纹信息属于同一个人。
本发明实施例中,当服务器查找到两个以上相匹配的账号时,在所述两个以上相匹配的账号中查找与所述声纹信息相匹配的账号,作为与所述字符串信息和声纹信息相匹配的账号。具体地,将所述声纹信息与所述两个以上相匹配的账号所对应的声纹信息分别进行相似度比较;当存在相似度大于等于第一预设阈值的账号时,将所述账号作为与所述声纹信息相匹配的账号。当不存在相似度大于等于第一预设阈值的账号时,将相似度大于等于第二预设阈值的账号发送至所述终端;所述第二预设阈值小于所述第一预设阈值。这里,第二预设阈值用于去除相似度差异太大的账号,从而向终端发送一个相似度账号列表,用户可以点击查看账号列表,选择其中一个账号“添加为好友”或“关注”。
步骤305:服务器向所述终端发送与所述字符串信息和声纹信息相匹配的账号。
步骤306:终端将所述账号添加至账号列表中。
本发明实施例的技术方案涉及到对账号进行声纹信息的绑定,账号绑定声纹信息后,通过语音识别账号会进行声纹信息的匹配,匹配结果更加准确。此外,账号绑定声纹信息后,账号的安全也多了一层保护。下面对账号的声纹信息绑定的流程做详细描述。
图4为本发明实施例的账号的声纹信息绑定的流程示意图,如图4所示,所述账号的声纹信息绑定流程包括以下步骤:
步骤401:输入账号登录APP,开启绑定声纹功能。
步骤402:录入账号中各个字符的语音。
步骤403:提取语音中的声纹信息。
步骤404:将声纹信息上传至服务器。
步骤405:当首次上传声纹信息时,执行步骤402。当再次上传声纹信息时,执行步骤406。
步骤406:服务器将声纹信息与上一次上传的声纹信息进行一致性校验,校验结果为一致时,将账号与声纹信息绑定。
图5为本发明实施例的终端的结构组成示意图,如图5所示,所述终端包括:
采集单元51,用于采集语音信息;
提取单元52,用于对所述语音信息进行解析,提取出字符串信息和声纹信息;
发送单元53,用于向服务器发送所述字符串信息和声纹信息;
接收单元54,用于接收所述服务器发送的与所述字符串信息和声纹信息相匹配的账号;
添加单元55,用于将所述账号添加至账号列表中。
所述提取单元52包括:
静音抑制子单元521,用于对所述语音信息进行静音抑制;
分帧子单元522,用于对静音抑制后的所述语音信息进行分帧处理;
特征值提取单元523,用于对分帧处理后的所述语音信息进行声音特征值提取,所提取的声音特征值表征所述声纹信息;
解码单元524,用于对所提取的声音特征值进行解码处理,得到所述字符串信息。
本领域技术人员应当理解,图5所示的终端中的各单元的实现功能可参照前述添加账号的方法的相关描述而理解。图5所示的终端中的各单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
图6为本发明实施例的服务器的结构组成示意图,如图6所示,所述服务器包括:
接收单元61,用于接收终端发送的字符串信息和声纹信息;
查找单元62,用于在数据库中查找与所述字符串信息和声纹信息相匹配的账号;
发送单元63,用于向所述终端发送与所述字符串信息和声纹信息相匹配的账号,以使所述终端将所述账号添加至账号列表中。
所述查找单元62包括:
第一查找子单元621,用于在数据库中查找与所述字符串信息相匹配的账号;
第二查找子单元622,用于当查找到两个以上相匹配的账号时,在所述两个以上相匹配的账号中查找与所述声纹信息相匹配的账号,作为与所述字符串信息和声纹信息相匹配的账号。
所述数据库中存储有与所述两个以上相匹配的账号所对应的声纹信息;
所述第二查找子单元622,还用于将所述声纹信息与所述两个以上相匹配的账号所对应的声纹信息分别进行相似度比较;当存在相似度大于等于第一预设阈值的账号时,将所述账号作为与所述声纹信息相匹配的账号。
所述发送单元63,还用于当不存在相似度大于等于第一预设阈值的账号时,将相似度大于等于第二预设阈值的账号发送至所述终端;所述第二预设阈值小于所述第一预设阈值。
所述第二查找子单元622,还用于当查找到一个相匹配的账号时,将所述声纹信息与所述相匹配的账号所对应的声纹信息进行相似度比较;当相似度大于等于第一预设阈值时,将所述账号作为与所述声纹信息相匹配的账号。
本领域技术人员应当理解,图6所示的服务器中的各单元的实现功能可参照前述添加账号的方法的相关描述而理解。图6所示的服务器中的各单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
在本发明所提供的几个实施例中,应该理解到,所揭露的方法和智能设备,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个第二处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
Claims (14)
1.一种添加账号的方法,其特征在于,所述方法包括:
采集语音信息;
对所述语音信息进行解析,提取出字符串信息和声纹信息;
向服务器发送所述字符串信息和声纹信息,以使服务器在数据库中查找与所述字符串信息相匹配的账号,以及,
将所述相匹配的账号所对应的声纹信息与所述从语音中提取的声纹信息进行相似度比较,当所述相匹配的账号所对应的声纹信息与所述从语音中提取的声纹信息之间的相似度大于等于第一预设阈值时,确认所述账号为与所述字符串信息和所述从语音中提取的声纹信息相匹配的账号;
接收所述服务器发送的与所述字符串信息和所述从语音中提取的声纹信息相匹配的账号;
将所述账号添加至账号列表中。
2.根据权利要求1所述的添加账号的方法,其特征在于,所述对所述语音信息进行解析,提取出字符串信息和声纹信息,包括:
对所述语音信息进行静音抑制;
对静音抑制后的所述语音信息进行分帧处理;
对分帧处理后的所述语音信息进行声音特征值提取,所提取的声音特征值表征所述声纹信息;
对所提取的声音特征值进行解码处理,得到所述字符串信息。
3.一种添加账号的方法,其特征在于,所述方法包括:
接收终端发送的字符串信息和声纹信息;
在数据库中查找与所述字符串信息和声纹信息相匹配的账号;
向所述终端发送与所述字符串信息和声纹信息相匹配的账号,以使所述终端将所述账号添加至账号列表中;
其中,所述在数据库中查找与所述字符串信息和声纹信息相匹配的账号包括:
在数据库中查找与所述字符串信息相匹配的账号;
将所述相匹配的账号所对应的声纹信息与所述从语音中提取的声纹信息进行相似度比较,当所述相匹配的账号所对应的声纹信息与所述从语音中提取的声纹信息之间的相似度大于等于第一预设阈值时,确认所述账号为与所述字符串信息和所述从语音中提取的声纹信息相匹配的账号。
4.根据权利要求3所述的添加账号的方法,其特征在于,所述在数据库中查找与所述字符串信息和声纹信息相匹配的账号,包括:
在数据库中查找与所述字符串信息相匹配的账号;
当查找到两个以上相匹配的账号时,在所述两个以上相匹配的账号中查找与所述声纹信息相匹配的账号,作为与所述字符串信息和声纹信息相匹配的账号。
5.根据权利要求4所述的添加账号的方法,其特征在于,所述数据库中存储有与所述两个以上相匹配的账号所对应的声纹信息;
所述在所述两个以上相匹配的账号中查找与所述声纹信息相匹配的账号,包括:
将所述声纹信息与所述两个以上相匹配的账号所对应的声纹信息分别进行相似度比较;
当存在相似度大于等于第一预设阈值的账号时,将所述账号作为与所述声纹信息相匹配的账号。
6.根据权利要求5所述的添加账号的方法,其特征在于,所述方法还包括:
当不存在相似度大于等于第一预设阈值的账号时,将相似度大于等于第二预设阈值的账号发送至所述终端;所述第二预设阈值小于所述第一预设阈值。
7.根据权利要求4所述的添加账号的方法,其特征在于,所述方法还包括:
当查找到一个相匹配的账号时,将所述声纹信息与所述相匹配的账号所对应的声纹信息进行相似度比较;
当相似度大于等于第一预设阈值时,将所述账号作为与所述声纹信息相匹配的账号。
8.一种终端,其特征在于,所述终端包括:
采集单元,用于采集语音信息;
提取单元,用于对所述语音信息进行解析,提取出字符串信息和声纹信息;
发送单元,用于向服务器发送所述字符串信息和声纹信息,以使服务器在数据库中查找与所述字符串信息相匹配的账号,以及,
将所述相匹配的账号所对应的声纹信息与所述从语音中提取的声纹信息进行相似度比较,当所述相匹配的账号所对应的声纹信息与所述从语音中提取的声纹信息之间的相似度大于等于第一预设阈值时,确认所述账号为与所述字符串信息和所述从语音中提取的声纹信息相匹配的账号;
接收单元,用于接收所述服务器发送的与所述字符串信息和所述从语音中提取的声纹信息相匹配的账号;
添加单元,用于将所述账号添加至账号列表中。
9.根据权利要求8所述的终端,其特征在于,所述提取单元包括:
静音抑制子单元,用于对所述语音信息进行静音抑制;
分帧子单元,用于对静音抑制后的所述语音信息进行分帧处理;
特征值提取单元,用于对分帧处理后的所述语音信息进行声音特征值提取,所提取的声音特征值表征所述声纹信息;
解码单元,用于对所提取的声音特征值进行解码处理,得到所述字符串信息。
10.一种服务器,其特征在于,所述服务器包括:
接收单元,用于接收终端发送的字符串信息和声纹信息;
查找单元,用于在数据库中查找与所述字符串信息和声纹信息相匹配的账号;
发送单元,用于向所述终端发送与所述字符串信息和声纹信息相匹配的账号,以使所述终端将所述账号添加至账号列表中;
所述查找单元,还用于在数据库中查找与所述字符串信息相匹配的账号;将所述相匹配的账号所对应的声纹信息与所述从语音中提取的声纹信息进行相似度比较,当所述相匹配的账号所对应的声纹信息与所述从语音中提取的声纹信息之间的相似度大于等于第一预设阈值时,确认所述账号为与所述字符串信息和所述从语音中提取的声纹信息相匹配的账号。
11.根据权利要求10所述的服务器,其特征在于,所述查找单元包括:
第一查找子单元,用于在数据库中查找与所述字符串信息相匹配的账号;
第二查找子单元,用于当查找到两个以上相匹配的账号时,在所述两个以上相匹配的账号中查找与所述声纹信息相匹配的账号,作为与所述字符串信息和声纹信息相匹配的账号。
12.根据权利要求11所述的服务器,其特征在于,所述数据库中存储有与所述两个以上相匹配的账号所对应的声纹信息;
所述第二查找子单元,还用于将所述声纹信息与所述两个以上相匹配的账号所对应的声纹信息分别进行相似度比较;当存在相似度大于等于第一预设阈值的账号时,将所述账号作为与所述声纹信息相匹配的账号。
13.根据权利要求12所述的服务器,其特征在于,所述发送单元,还用于当不存在相似度大于等于第一预设阈值的账号时,将相似度大于等于第二预设阈值的账号发送至所述终端;所述第二预设阈值小于所述第一预设阈值。
14.根据权利要求11所述的服务器,其特征在于,所述第二查找子单元,还用于当查找到一个相匹配的账号时,将所述声纹信息与所述相匹配的账号所对应的声纹信息进行相似度比较;当相似度大于等于第一预设阈值时,将所述账号作为与所述声纹信息相匹配的账号。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510791070.8A CN106710593B (zh) | 2015-11-17 | 2015-11-17 | 一种添加账号的方法、终端、服务器 |
PCT/CN2016/085789 WO2017084327A1 (zh) | 2015-11-17 | 2016-06-15 | 一种添加账号的方法、终端、服务器、计算机存储介质 |
KR1020177033958A KR102081495B1 (ko) | 2015-11-17 | 2016-06-15 | 계정 추가 방법, 단말, 서버, 및 컴퓨터 저장 매체 |
JP2017553953A JP6469252B2 (ja) | 2015-11-17 | 2016-06-15 | アカウント追加方法、端末、サーバ、およびコンピュータ記憶媒体 |
US15/697,156 US10270736B2 (en) | 2015-11-17 | 2017-09-06 | Account adding method, terminal, server, and computer storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510791070.8A CN106710593B (zh) | 2015-11-17 | 2015-11-17 | 一种添加账号的方法、终端、服务器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106710593A CN106710593A (zh) | 2017-05-24 |
CN106710593B true CN106710593B (zh) | 2020-07-14 |
Family
ID=58717294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510791070.8A Active CN106710593B (zh) | 2015-11-17 | 2015-11-17 | 一种添加账号的方法、终端、服务器 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10270736B2 (zh) |
JP (1) | JP6469252B2 (zh) |
KR (1) | KR102081495B1 (zh) |
CN (1) | CN106710593B (zh) |
WO (1) | WO2017084327A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106209604A (zh) * | 2016-08-26 | 2016-12-07 | 北京小米移动软件有限公司 | 添加好友的方法及装置 |
CN107580122A (zh) * | 2017-08-30 | 2018-01-12 | 努比亚技术有限公司 | 一种信息处理方法、终端和计算机可读存储介质 |
GB201720418D0 (en) * | 2017-11-13 | 2018-01-24 | Cirrus Logic Int Semiconductor Ltd | Audio peripheral device |
GB201801875D0 (en) * | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Audio processing |
CN107734193A (zh) * | 2017-11-22 | 2018-02-23 | 深圳悉罗机器人有限公司 | 智能设备系统及智能设备控制方法 |
CN108320756B (zh) * | 2018-02-07 | 2021-12-03 | 广州酷狗计算机科技有限公司 | 一种检测音频是否是纯音乐音频的方法和装置 |
CN108491379A (zh) * | 2018-03-08 | 2018-09-04 | 平安科技(深圳)有限公司 | 快捷键识别方法、装置、设备以及计算机可读存储介质 |
CN108712729B (zh) * | 2018-05-30 | 2021-03-02 | 福州米鱼信息科技有限公司 | 一种主动社交型穿戴设备及其实现方法 |
CN110798393B (zh) * | 2018-08-02 | 2021-10-26 | 腾讯科技(深圳)有限公司 | 声纹气泡的展示方法及使用声纹气泡的终端 |
CN112447179A (zh) * | 2019-08-29 | 2021-03-05 | 中国移动通信有限公司研究院 | 一种语音交互方法、装置、设备及计算机可读存储介质 |
CN112835900A (zh) * | 2021-02-01 | 2021-05-25 | 深圳市科荣软件股份有限公司 | 农村污水智慧运营系统、方法、电子设备及存储介质 |
CN114363387A (zh) * | 2021-12-31 | 2022-04-15 | 北京沃东天骏信息技术有限公司 | 应用拉活方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103532916A (zh) * | 2012-07-05 | 2014-01-22 | 百度在线网络技术(北京)有限公司 | 通过语音获取信息的方法、移动终端和语音信息系统 |
CN104092653A (zh) * | 2014-01-20 | 2014-10-08 | 腾讯科技(深圳)有限公司 | 一种数据处理的方法和系统 |
CN104735634A (zh) * | 2013-12-24 | 2015-06-24 | 腾讯科技(深圳)有限公司 | 一种关联支付账号管理方法、移动终端、服务器以及系统 |
CN104935713A (zh) * | 2014-03-20 | 2015-09-23 | 海尔集团公司 | 通信终端存储电话号码的方法及装置 |
CN105100028A (zh) * | 2014-05-22 | 2015-11-25 | 中兴通讯股份有限公司 | 账号管理方法及装置 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002507298A (ja) * | 1997-06-27 | 2002-03-05 | ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ | 自動音声認識を有するアクセス制御コンピュータシステム |
US20040019068A1 (en) * | 2000-10-19 | 2004-01-29 | Mizuo Miyazaki | Novel remedies or preventives for angiostenosis |
US20040190688A1 (en) * | 2003-03-31 | 2004-09-30 | Timmins Timothy A. | Communications methods and systems using voiceprints |
KR20010069650A (ko) * | 2001-04-25 | 2001-07-25 | 백종관 | 숫자로 구성된 어휘를 인식하고 동시에 발성화자를인증하는 방법 및 그 시스템 |
KR20040110762A (ko) * | 2003-06-20 | 2004-12-31 | 주식회사 케이티 | 버디콜 서비스 시스템 및 그 제공 방법 |
KR100547858B1 (ko) * | 2003-07-07 | 2006-01-31 | 삼성전자주식회사 | 음성인식 기능을 이용하여 문자 입력이 가능한 이동통신단말기 및 방법 |
JP4387273B2 (ja) * | 2004-09-10 | 2009-12-16 | 東芝テック株式会社 | 個人認証装置 |
US7536304B2 (en) * | 2005-05-27 | 2009-05-19 | Porticus, Inc. | Method and system for bio-metric voice print authentication |
JP2008015439A (ja) * | 2006-07-07 | 2008-01-24 | Takashi I | 音声認識システム |
JP4661917B2 (ja) * | 2008-07-25 | 2011-03-30 | 日産自動車株式会社 | 駐車支援装置および駐車支援方法 |
WO2010025343A1 (en) * | 2008-08-28 | 2010-03-04 | Jonas Lawrence A | System for integrating multiple im networks and social networking websites |
US9262612B2 (en) * | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
CN103581109B (zh) * | 2012-07-19 | 2018-03-02 | 北京京东尚科信息技术有限公司 | 声纹登录购物系统和方法 |
CN103118000A (zh) * | 2012-12-07 | 2013-05-22 | 大连奥林匹克电子城咨信商行 | 一种基于声音匹配的在线登陆身份认证方法 |
US20160065558A1 (en) * | 2013-01-08 | 2016-03-03 | Coursera, Inc. | Identity verification for online education |
US8917848B2 (en) * | 2013-03-15 | 2014-12-23 | Telmate, Llc | Call management for secure facilities |
CN103679452A (zh) * | 2013-06-20 | 2014-03-26 | 腾讯科技(深圳)有限公司 | 支付验证方法、装置及系统 |
JP2015170215A (ja) * | 2014-03-07 | 2015-09-28 | 株式会社東芝 | 保守員認証システム及びプログラム |
CN105306657B (zh) * | 2014-06-20 | 2019-07-26 | 中兴通讯股份有限公司 | 身份识别方法、装置及通讯终端 |
JP2015143866A (ja) * | 2015-02-25 | 2015-08-06 | 株式会社東芝 | 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム |
CN104967622B (zh) * | 2015-06-30 | 2017-04-05 | 百度在线网络技术(北京)有限公司 | 基于声纹的通讯方法、装置和系统 |
US9938882B2 (en) * | 2015-07-14 | 2018-04-10 | Hyundai Motor Company | Coolant circulation system for turbocharger |
-
2015
- 2015-11-17 CN CN201510791070.8A patent/CN106710593B/zh active Active
-
2016
- 2016-06-15 WO PCT/CN2016/085789 patent/WO2017084327A1/zh active Application Filing
- 2016-06-15 KR KR1020177033958A patent/KR102081495B1/ko active IP Right Grant
- 2016-06-15 JP JP2017553953A patent/JP6469252B2/ja active Active
-
2017
- 2017-09-06 US US15/697,156 patent/US10270736B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103532916A (zh) * | 2012-07-05 | 2014-01-22 | 百度在线网络技术(北京)有限公司 | 通过语音获取信息的方法、移动终端和语音信息系统 |
CN104735634A (zh) * | 2013-12-24 | 2015-06-24 | 腾讯科技(深圳)有限公司 | 一种关联支付账号管理方法、移动终端、服务器以及系统 |
CN104092653A (zh) * | 2014-01-20 | 2014-10-08 | 腾讯科技(深圳)有限公司 | 一种数据处理的方法和系统 |
CN104935713A (zh) * | 2014-03-20 | 2015-09-23 | 海尔集团公司 | 通信终端存储电话号码的方法及装置 |
CN105100028A (zh) * | 2014-05-22 | 2015-11-25 | 中兴通讯股份有限公司 | 账号管理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN106710593A (zh) | 2017-05-24 |
JP6469252B2 (ja) | 2019-02-13 |
JP2018522303A (ja) | 2018-08-09 |
WO2017084327A1 (zh) | 2017-05-26 |
US20180013718A1 (en) | 2018-01-11 |
US10270736B2 (en) | 2019-04-23 |
KR102081495B1 (ko) | 2020-02-25 |
KR20170139650A (ko) | 2017-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106710593B (zh) | 一种添加账号的方法、终端、服务器 | |
CN109493850B (zh) | 成长型对话装置 | |
US10629186B1 (en) | Domain and intent name feature identification and processing | |
US8521525B2 (en) | Communication control apparatus, communication control method, and non-transitory computer-readable medium storing a communication control program for converting sound data into text data | |
CN106713111B (zh) | 一种添加好友的处理方法、终端及服务器 | |
JP2023022150A (ja) | 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム | |
CN110853615B (zh) | 一种数据处理方法、装置及存储介质 | |
CN112102850B (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
WO2020238045A1 (zh) | 智能语音识别方法、装置及计算机可读存储介质 | |
CN110505504B (zh) | 视频节目处理方法、装置、计算机设备及存储介质 | |
CN113327609A (zh) | 用于语音识别的方法和装置 | |
CN102404278A (zh) | 一种基于声纹识别的点歌系统及其应用方法 | |
JP2004101901A (ja) | 音声対話装置及び音声対話プログラム | |
JP6915637B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US20220238118A1 (en) | Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription | |
JPWO2016147342A1 (ja) | 情報提供システム | |
KR102312993B1 (ko) | 인공신경망을 이용한 대화형 메시지 구현 방법 및 그 장치 | |
CN113744742A (zh) | 对话场景下的角色识别方法、装置和系统 | |
JP6347939B2 (ja) | 発話内重要語抽出装置とその装置を用いた発話内重要語抽出システムと、それらの方法とプログラム | |
CN116110370A (zh) | 基于人机语音交互的语音合成系统及相关设备 | |
CN112235183B (zh) | 通信消息处理方法、设备及即时通信客户端 | |
CN109359307B (zh) | 自动识别语种的翻译方法、装置及设备 | |
CN113051426A (zh) | 音频信息分类方法、装置、电子设备及存储介质 | |
CN114514576A (zh) | 数据处理方法、装置和存储介质 | |
CN113348502A (zh) | 语音识别方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |