CN105635452B - 移动终端及其联系人标识方法 - Google Patents

移动终端及其联系人标识方法 Download PDF

Info

Publication number
CN105635452B
CN105635452B CN201511004834.0A CN201511004834A CN105635452B CN 105635452 B CN105635452 B CN 105635452B CN 201511004834 A CN201511004834 A CN 201511004834A CN 105635452 B CN105635452 B CN 105635452B
Authority
CN
China
Prior art keywords
identified
contact person
dimensional image
characteristic
vocal print
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201511004834.0A
Other languages
English (en)
Other versions
CN105635452A (zh
Inventor
张圣杰
金蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nubia Technology Co Ltd
Original Assignee
Nubia Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nubia Technology Co Ltd filed Critical Nubia Technology Co Ltd
Priority to CN201511004834.0A priority Critical patent/CN105635452B/zh
Publication of CN105635452A publication Critical patent/CN105635452A/zh
Priority to PCT/CN2016/107329 priority patent/WO2017114048A1/zh
Application granted granted Critical
Publication of CN105635452B publication Critical patent/CN105635452B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72439User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for image or video messaging
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/274Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc
    • H04M1/2745Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips
    • H04M1/27467Methods of retrieving data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72433User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/274Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc
    • H04M1/2745Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips
    • H04M1/27453Directories allowing storage of additional subscriber data, e.g. metadata
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/52Details of telephonic subscriber devices including functional features of a camera

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Library & Information Science (AREA)
  • Telephone Function (AREA)

Abstract

本发明公开了一种联系人标识方法,所述联系人标识方法包括:当接收到联系人标识指令时,获取待标识联系人对应的三维形象及声纹特征信息;采用获取的所述三维形象及声纹特征信息对所述待标识联系人进行标识,以在查看所述待标识联系人信息时,进行具有三维形象及联系人声纹特征信息的语音播报。本发明还公开了一种移动终端,本发明解决了现有联系人的标识方式十分简单,且不够生动形象的问题,并实现了三维形象及声纹特征信息播报,满足用户日益增长的个性化需求,提高用户的体验及可玩性。

Description

移动终端及其联系人标识方法
技术领域
本发明涉及通信技术领域,尤其涉及一种移动终端及其联系人标识方法。
背景技术
目前的技术,通常会使用联系人的照片以及名称来标识相关的联系人,从而方便用户查询联系人信息,该标识方式十分简单,且不够生动形象,用户在使用联系人进行通话或者查看联系人信息时,往往只能看到联系人的照片以及名称,不能看到其他信息。
发明内容
本发明的主要目的在于提出一种联系人标识方法和装置,旨在解决现有的联系人的标识方式十分简单,且不够生动形象的技术问题。
为实现上述目的,本发明提供一种移动终端,所述移动终端包括:
获取模块,用于当接收到联系人标识指令时,获取待标识联系人对应的三维形象及声纹特征信息;
标识模块,用于采用获取的所述三维形象及声纹特征信息对所述待标识联系人进行标识;
播报模块,用于在查看所述待标识联系人信息时,进行具有三维形象及联系人声纹特征信息的语音播报。
可选地,所述播报模块包括:
合成单元,用于在查看所述待标识联系人信息时,确定待播报文本,并合成所述待播报文本的标准发音;
修饰单元,用于根据所述待标识联系人的声纹特征信息对所述标准发音进行修饰,得到所述待标识联系人的发音特征的声音波形;
输出单元,用于输出所述声音波形进行语音播报,并在移动终端的屏幕上显示所述待标识联系人的三维形象。
可选地,所述获取模块包括:
拍照单元,用于启动移动终端的摄像头应用中的全景拍摄模式以拍摄待并存储所述待标识联系人的图像数据;
第一提取单元,用于从所述图像数据中提取生成所述待标识联系人的三维形象所需的特征数据;
生成单元,用于根据所提取的所述特征数据,启动三维形象引擎以生成所述待标识联系人的三维形象。
可选地,第一提取单元包括:
标定子单元,用于提取所述图像数据中的人像数据,并对所述图像数据中不同朝向的所述人像数据进行标定;
获取子单元,用于从所述待标识联系人在不同朝向下的所述人像数据获取特征数据,所述特征数据包括人脸纹理特征数据、身体比例的特征数据、发型特征数据、穿着特征数据、颜色特征数据。
可选地,所述获取模块还包括:
复制单元,用于在侦测到与所述待标识联系人的通话时,复制所接收到的所述待标识联系人的声音数据,并将复制得到的声音数据作为所述待标识联系人的声音样本;
第二提取单元,用于从所述声音样本中提取声纹特征信息。
此外,为实现上述目的,本发明还提出一种联系人标识方法,所述联系人标识方法包括:
当接收到联系人标识指令时,获取待标识联系人对应的三维形象及声纹特征信息;
采用获取的所述三维形象及声纹特征信息对所述待标识联系人进行标识,以在查看所述待标识联系人信息时,进行具有三维形象及联系人声纹特征信息的语音播报。
可选地,所述在查看所述待标识联系人信息时,进行具有三维形象及联系人声纹特征信息的语音播报的步骤包括:
在查看所述待标识联系人信息时,确定待播报文本,并合成所述待播报文本的标准发音;
根据所述待标识联系人的声纹特征信息对所述标准发音进行修饰,得到所述待标识联系人的发音特征的声音波形;
输出所述声音波形进行语音播报,并在移动终端的屏幕上显示所述待标识联系人的三维形象。
可选地,所述获取待标识联系人对应的三维形象的步骤包括:
启动移动终端的摄像头应用中的全景拍摄模式以拍摄待并存储所述待标识联系人的图像数据;
从所述图像数据中提取生成所述待标识联系人的三维形象所需的特征数据;
根据所提取的所述特征数据,启动三维形象引擎以生成所述待标识联系人的三维形象。
可选地,所述从所述图像数据中提取生成所述待标识联系人的三维形象所需的特征数据的步骤包括:
提取所述图像数据中的人像数据,并对所述图像数据中不同朝向的所述人像数据进行标定;
从所述待标识联系人在不同朝向下的所述人像数据获取特征数据,所述特征数据包括人脸纹理特征数据、身体比例的特征数据、发型特征数据、穿着特征数据、颜色特征数据。
可选地,所述获取待标识联系人对应的声纹特征的步骤包括:
在侦测到与所述待标识联系人的通话时,复制所接收到的所述待标识联系人的声音数据,并将复制得到的声音数据作为所述待标识联系人的声音样本;
从所述声音样本中提取声纹特征信息。
本发明提出的移动终端及其联系人标识方法,通过当接收到联系人标识指令时,获取待标识联系人的三维形象及声纹特征信息,并采用获取的所述三维形象及声纹特征信息对所述待标识联系人进行标识,从而有效解决了现有联系人的标识方式十分简单,且不够生动形象的问题,同时在在查看所述待标识联系人信息时,对所述待标识联系人信息进行具有三维形象及联系人声纹特征信息的语音播报,从而满足了用户日益增长的个性化需求,提高用户的体验及可玩性。
附图说明
图1为实现本发明各个实施例的移动终端的硬件结构示意图;
图2为如图1所示的移动终端的无线通信装置示意图;
图3为本发明移动终端第一实施例的功能模块示意图;
图4为图3中播报模块的细化功能模块示意图;
图5为图3中获取模块的细化功能模块示意图;
图6为图5中第一提取单元的细化的功能模块示意图;
图7为图3中获取模块的另一细化功能模块示意图;
图8为本发明移动终端全景拍摄的拍摄方法一实施例的示意图;
图9为本发明联系人标识方法第一实施例的流程示意图;
图10为图9中进行具有三维形象及联系人声纹特征信息的语音播报的步骤细化的流程示意图;
图11为图9中获取待标识联系人对应的三维形象的步骤细化流程示意图;
图12为图10中从图像数据中提取生成待标识联系人的三维形象所需的特征数据的步骤细化流程示意图;
图13为图9中获取待标识联系人对应的声纹特征的步骤细化流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
现在将参考附图描述实现本发明各个实施例的移动终端。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
移动终端可以以各种形式来实施。例如,本发明中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面,假设终端是移动终端。然而,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。
图1为实现本发明各个实施例的移动终端的硬件结构示意。
移动终端100可以包括无线通信单元110、A/V(音频/视频)输入单元120、用户输入单元130、感测单元140、输出单元150、存储器160和控制器170。图1示出了具有各种组件的移动终端,但是应理解的是,并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。将在下面详细描述移动终端的元件。
移动通信模块111将无线电信号发送到基站(例如,接入点、节点B等等)、外部终端以及服务器中的至少一个和/或从其接收无线电信号。这样的无线电信号可以包括语音通话信号、视频通话信号、或者根据文本和/或多媒体消息发送和/或接收的各种类型的数据。
A/V输入单元120用于接收音频或视频信号。A/V输入单元120可以包括相机121和麦克风122,相机121对在视频捕获模式或图像捕获模式中由图像捕获装置获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元151上。经相机121处理后的图像帧可以存储在存储器160(或其它存储介质)中或者经由无线通信单元110进行发送,可以根据移动终端的构造提供两个或更多相机121。麦克风122可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风接收声音(音频数据),并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由移动通信模块112发送到移动通信基站的格式输出。麦克风122可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。
用户输入单元130可以根据用户输入的命令生成键输入数据以控制移动终端的各种操作。用户输入单元130允许用户输入各种类型的信息,并且可以包括键盘、锅仔片、触摸板(例如,检测由于被接触而导致的电阻、压力、电容等等的变化的触敏组件)、滚轮、摇杆等等。特别地,当触摸板以层的形式叠加在显示单元151上时,可以形成触摸屏。
感测单元140检测移动终端100的当前状态,(例如,移动终端100的打开或关闭状态)、移动终端100的位置、用户对于移动终端100的接触(即,触摸输入)的有无、移动终端100的取向、移动终端100的加速或将速移动和方向等等,并且生成用于控制移动终端100的操作的命令或信号。例如,当移动终端100实施为滑动型移动电话时,感测单元140可以感测该滑动型电话是打开还是关闭。感测单元140包括加速度计141和陀螺仪142,加速度计141用于检测移动终端100的实时加速度以得出移动终端100的运动方向,陀螺仪142用于检测移动终端100相对于其所在平面的倾斜角度。
输出单元150被构造为以视觉、音频和/或触觉方式提供输出信号(例如,音频信号、视频信号、警报信号、振动信号等等)。输出单元150可以包括显示单元151、音频输出模块152、警报单元153等等。
显示单元151可以显示在移动终端100中处理的信息。例如,当移动终端100处于电话通话模式时,显示单元151可以显示与通话或其它通信(例如,文本消息收发、多媒体文件下载等等)相关的用户界面(UI)或图形用户界面(GUI)。当移动终端100处于视频通话模式或者图像捕获模式时,显示单元151可以显示捕获的图像和/或接收的图像、示出视频或图像以及相关功能的UI或GUI等等。
同时,当显示单元151和触摸板以层的形式彼此叠加以形成触摸屏时,显示单元151可以用作输入装置和输出装置。显示单元151可以包括液晶显示器(LCD)、薄膜晶体管LCD(TFT-LCD)、有机发光二极管(OLED)显示器、柔性显示器、三维(3D)显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看,这可以称为透明显示器,典型的透明显示器可以例如为TOLED(透明有机发光二极管)显示器等等。根据特定想要的实施方式,移动终端100可以包括两个或更多显示单元(或其它显示装置),例如,移动终端可以包括外部显示单元(未示出)和内部显示单元(未示出)。触摸屏可用于检测触摸输入压力以及触摸输入位置和触摸输入面积。
音频输出模块152可以在移动终端处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将无线通信单元110接收的或者在存储器160中存储的音频数据转换音频信号并且输出为声音。而且,音频输出模块152可以提供与移动终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出模块152可以包括拾音器、蜂鸣器等等。
警报单元153可以提供输出以将事件的发生通知给移动终端100。典型的事件可以包括呼叫接收、消息接收、键信号输入、触摸输入等等。除了音频或视频输出之外,警报单元153可以以不同的方式提供输出以通知事件的发生。例如,警报单元153可以以振动的形式提供输出,当接收到呼叫、消息或一些其它进入通信(incoming communication)时,警报单元153可以提供触觉输出(即,振动)以将其通知给用户。通过提供这样的触觉输出,即使在用户的移动电话处于用户的口袋中时,用户也能够识别出各种事件的发生。警报单元153也可以经由显示单元151或音频输出模块152提供通知事件的发生的输出。
存储器160可以存储由控制器180执行的处理和控制操作的软件程序等等,或者可以暂时地存储己经输出或将要输出的数据(例如,电话簿、消息、静态图像、视频等等)。而且,存储器160可以存储关于当触摸施加到触摸屏时输出的各种方式的振动和音频信号的数据。
存储器160可以包括至少一种类型的存储介质,所述存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且,移动终端100可以与通过网络连接执行存储器160的存储功能的网络存储装置协作。
控制器170通常控制移动终端的总体操作。例如,控制器180执行与语音通话、数据通信、视频通话等等相关的控制和处理。另外,控制器180可以包括用于再现(或回放)多媒体数据的多媒体模块181,多媒体模块181可以构造在控制器180内,或者可以构造为与控制器180分离。控制器180可以执行模式识别处理,以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。
这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施,这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施,在一些情况下,这样的实施方式可以在控制器180中实施。对于软件实施,诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施,软件代码可以存储在存储器160中并且由控制器180执行。
至此,己经按照其功能描述了移动终端。下面,为了简要起见,将描述诸如折叠型、直板型、摆动型、滑动型移动终端等等的各种类型的移动终端中的滑动型移动终端作为示例。因此,本发明能够应用于任何类型的移动终端,并且不限于滑动型移动终端。
参照图2,图2为图1中相机的电气结构框图。
摄影镜头1211由用于形成被摄体像的多个光学镜头构成,为单焦点镜头或变焦镜头。摄影镜头1211在镜头驱动器1221的控制下能够在光轴方向上移动,镜头驱动器1221根据来自镜头驱动控制电路1222的控制信号,控制摄影镜头1211的焦点位置,在变焦镜头的情况下,也可控制焦点距离。镜头驱动控制电路1222按照来自微型计算机1217的控制命令进行镜头驱动器1221的驱动控制。
在摄影镜头1211的光轴上、由摄影镜头1211形成的被摄体像的位置附近配置有摄像元件1212。摄像元件1212用于对被摄体像摄像并取得摄像图像数据。在摄像元件1212上二维且呈矩阵状配置有构成各像素的光电二极管。各光电二极管产生与受光量对应的光电转换电流,该光电转换电流由与各光电二极管连接的电容器进行电荷蓄积。各像素的前表面配置有拜耳排列的RGB滤色器。
摄像元件1212与摄像电路1213连接,该摄像电路1213在摄像元件1212中进行电荷蓄积控制和图像信号读出控制,对该读出的图像信号(模拟图像信号)降低重置噪声后进行波形整形,进而进行增益提高等以成为适当的信号电平。摄像电路1213与A/D转换器1214连接,该A/D转换器1214对模拟图像信号进行模数转换,向总线1227输出数字图像信号(以下称之为图像数据)。
总线1227是用于传送在相机的内部读出或生成的各种数据的传送路径。在总线1227连接着上述A/D转换器1214,此外还连接着图像处理器1215、JPEG处理器1216、微型计算机1217、SDRAM(Synchronous Dynamic random access memory,同步动态随机存取内存)1218、存储器接口(以下称之为存储器I/F)1219、LCD(Liquid Crystal Display,液晶显示器)驱动器1220。
图像处理器1215对基于摄像元件1212的输出的图像数据进行OB相减处理、白平衡调整、颜色矩阵运算、伽马转换、色差信号处理、噪声去除处理、同时化处理、边缘处理等各种图像处理。JPEG处理器1216在将图像数据记录于记录介质1225时,按照JPEG压缩方式压缩从SDRAM1218读出的图像数据。此外,JPEG处理器1216为了进行图像再现显示而进行JPEG图像数据的解压缩。进行解压缩时,读出记录在记录介质1225中的文件,在JPEG处理器1216中实施了解压缩处理后,将解压缩的图像数据暂时存储于SDRAM1218中并在LCD1226上进行显示。另外,在本实施方式中,作为图像压缩解压缩方式采用的是JPEG方式,然而压缩解压缩方式不限于此,当然可以采用MPEG、TIFF、H.264等其他的压缩解压缩方式。
微型计算机1217发挥作为该相机整体的控制部的功能,统一控制相机的各种处理序列。微型计算机1217连接着操作单元1223和闪存1224。
操作单元1223包括但不限于实体按键或者虚拟按键,该实体或虚拟按键可以为电源按钮、拍照键、编辑按键、动态图像按钮、再现按钮、菜单按钮、十字键、OK按钮、删除按钮、放大按钮等各种输入按钮和各种输入键等操作控件,检测这些操作控件的操作状态,。
将检测结果向微型计算机1217输出。此外,在作为显示器的LCD1226的前表面设有触摸面板,检测用户的触摸位置,将该触摸位置向微型计算机1217输出。微型计算机1217根据来自操作单元1223的操作位置的检测结果,执行与用户的操作对应的各种处理序列。
闪存1224存储用于执行微型计算机1217的各种处理序列的程序。微型计算机1217根据该程序进行相机整体的控制。此外,闪存1224存储相机的各种调整值,微型计算机1217读出调整值,按照该调整值进行相机的控制。
SDRAM1218是用于对图像数据等进行暂时存储的可电改写的易失性存储器。该SDRAM1218暂时存储从A/D转换器1214输出的图像数据和在图像处理器1215、JPEG处理器1216等中进行了处理后的图像数据。
存储器接口1219与记录介质1225连接,进行将图像数据和附加在图像数据中的文件头等数据写入记录介质1225和从记录介质1225中读出的控制。记录介质1225例如为能够在相机主体上自由拆装的存储器卡等记录介质,然而不限于此,也可以是内置在相机主体中的硬盘等。
LCD驱动器1210与LCD1226连接,将由图像处理器1215处理后的图像数据存储于SDRAM1218,需要显示时,读取SDRAM1218存储的图像数据并在LCD1226上显示,或者,JPEG处理器1216压缩过的图像数据存储于SDRAM1218,在需要显示时,JPEG处理器1216读取SDRAM1218的压缩过的图像数据,再进行解压缩,将解压缩后的图像数据通过LCD1226进行显示。
LCD1226配置在相机主体的背面进行图像显示。该LCD1226LCD),然而不限于此,也可以采用有机EL等各种显示面板(LCD1226),然而不限于此,也可以采用有机EL等各种显示面板。
基于上述移动终端硬件结构以及相机的电气结构示意图,提出本发明移动终端各个实施例。
参照图3,图3为本发明移动终端的第一实施例的功能模块示意图。
在本实施例中,所述移动终端包括获取模块10、标识模块20及播报模块30。
所述获取模块10,用于当接收到联系人标识指令时,获取待标识联系人对应的三维形象及声纹特征信息;
在本实施例中,可以提供用于标识联系人的快捷图标,供用户基于所述快捷图标触发联系人标识指令;或者,也可以通过提供用于标识联系人的物理按键,供用户基于所述物理按键触发联系人标识指令;或者,也可以通过提供用于标识联系人的虚拟按键,供用户基于所述虚拟按键触发联系人标识指令。所述声纹特征信息可以为语音信号的语音频谱参数、线性预测参数、小波特征参数等。当获取模块10接收到用户触发的联系人标识指令时,获取存储于移动终端存储单元中的待标识联系人对应的三维形象及声纹特征信息。比如,用户触发将联系人小王的信息与小王的三维形象及声纹特征信息进行标识的指令,则获取模块10获取移动终端中预存的小王的三维形象及小王的声纹特征信息,又如,用户触发将联系人小李的信息与小李的三维形象及声纹特征信息进行标识的指令,则获取模块10获取移动终端中预存的小李王的三维形象及小王的声纹特征信息。
标识模块20,用于采用获取的所述三维形象及声纹特征信息对所述待标识联系人进行标识;
当获取到所述待标识联系人的三维形象及声纹特征信息后,所述标识模块20对所述待标识联系人进行标识,即建立所述待标识联系人与其三维形象及声纹特征信息的映射关系。
所述播报模块30,用于在查看所述待标识联系人信息时,进行具有三维形象及联系人声纹特征信息的语音播报。
所述待标识联系人信息可以为联系人应用中待标识联系人信息,或者为短信应用中待标识联系人发的短信信息等。所述具有三维形象及联系人声纹特征信息的语音播报为在语音播报时,在移动终端屏幕显示联系人的三维形象,同时使用联系人的声纹特征信息对待播报的文本信息进行语音播报。所述具有三维形象及联系人声纹特征信息的语音播报的举例如下:若待标识联系人信息可以为联系人应用中待标识联系人信息,则当查看某个联系人信息时,所述播报模块30会在移动终端的屏幕上显示该联系人的三维形象,并使用该联系人的声纹特征信息播报所述联系人信息,所述联系人信息包括联系人电话号码、联系人地址、联系人工作单位等;若所述待标识联系人信息为短信应用中待标识联系人发的短信信息,则当查看所述待标识联系人发的短信信息时,所述播报模块30会在移动终端的屏幕上显示发送该短信的联系人的三维形象,并使用该联系人的声纹特征信息播报所述短信内容;进一步地,本发明的思想也可应用于语音助手等应用中,则当用户打开语音助手时,用户可以选择用户聊天的联系人,当选定联系人之后,移动终端的屏幕会显示该联系人所关联的三维形象,且在聊天时,语音助手的人物会使用该联系人关联的声纹特征信息播报聊天的内容,从而做到用户好像是和真的联系人进行聊天一样,提高用户体验。
本发明提出的移动终端及其联系人标识方法,通过当接收到联系人标识指令时,获取待标识联系人的三维形象及声纹特征信息,并采用获取的所述三维形象及声纹特征信息对所述待标识联系人进行标识,从而有效解决了现有联系人的标识方式十分简单,且不够生动形象的问题,同时在在查看所述待标识联系人信息时,对所述待标识联系人信息进行具有三维形象及联系人声纹特征信息的语音播报,从而满足了用户日益增长的个性化需求,提高用户的体验及可玩性。
进一步地,基于第一实施例提出本发明移动终端的第二实施例,参照图4,在本实施例中,所述播报模块30包括:合成单元31、修饰单元32及输出单元33。
所述合成单元31,用于在查看所述待标识联系人信息时,确定待播报文本,并合成所述待播报文本的标准发音;
所述修饰单元32,用于根据所述待标识联系人的声纹特征信息对所述标准发音进行修饰,得到所述待标识联系人的发音特征的声音波形;
所述输出单元33,用于输出所述声音波形进行语音播报,并在移动终端的屏幕上显示所述待标识联系人的三维形象。
当查看所述待标识联系人信息时,所述合成单元31首先确定待播报文本,并合成所述待播报文本的标准发音;然后所述修饰单元32根据所述待标识联系人的声纹特征信息对所述标准发音进行修饰,得到所述待标识联系人的发音特征的声音波形;最后所述输出单元33输出所述声音波形进行语音播报,同时在移动终端的屏幕上显示所述待标识联系人的三维形象,实现三维形象及声纹特征信息播报。优选的,可在输出所述声音波形时,可以将所述声音波形发送至音频输出接口(如MIC、耳机、HDMI、自带的扬声器等)进行播报。
本实施例通过在进行具有声纹特征信息的语音播报时,同时显示待标识联系人的三维形象,使得语音播报的过程更加生动形象,提高了用户体验性。
进一步地,基于第一或第二实施例提出本发明移动终端的第三实施例,参照图5,在本实施例中,所述获取模块10包括:拍摄单元11、第一提取单元12及生成单元13。
所述拍摄单元11,用于启动移动终端的摄像头应用中的全景拍摄模式以拍摄待并存储所述待标识联系人的图像数据;
本实施例中,通过拍摄单元11启动摄像头应用中的全景拍摄模式,对拍照对象即所述待标识联系人进行对焦,然后沿同一距离开始围绕拍照对象进行圆周运动,顺时针或逆时针均可,直到摄像头获取了拍照对象360°方位的图像数据,过程如图8所示。在拍摄全景照片的过程中,为了保证获取的不同角度及方位的图像之间有足够的重叠信息以供后续进行三维模型的拼接处理,可以在拍摄过程中可使用重力传感器、姿态传感器、陀螺仪、罗盘等对拍摄过程进行监测,以判断当前的移动终端是否处于合适的水平位置,并根据检测情况给予用户一定的语音提示。比如:摄像头是否移动在一个可容忍的拍摄角度位置,摄像头转动的角度是否过大或过小等,从而保证获取的不同角度及方位的图像之间有足够的重叠信息。待拍摄完成后,拍摄模块30还需把拍摄的全景照片即图像数据保存至移动终端的存储单元内,以便于后续进行三维形象的生成处理。
所述第一提取单元12,用于从所述图像数据中提取生成所述待标识联系人的三维形象所需的特征数据;
在获得所述待标识联系人的图像数据后,所述第一提取单元12,从所述图像数据中提取生成所述待标识联系人的三维形象所需的特征数据。所述特征数据包括面部纹理、发型的360°外观特征、肤色、发色、瞳孔颜色、身高、穿着、四肢比例等特征数据。
所述生成单元13,用于根据所提取的所述特征数据,启动三维形象引擎以生成所述待标识联系人的三维形象。
在提取到生成所述待标识联系人的三维形象所需的特征数据后,所述生成单元13,根据所提取的所述特征数据,启动三维形象引擎以生成所述待标识联系人的三维形象。具体的,将提取的所述特征数据进行升维计算,计算出在三维空间中整体人物的长宽高以及四肢比例数据,以生成一个初步的人物模型,然后使用从全景图片中相对应的图像数据中所提取的特征数据,比如脸部特征数据、发型特征数据、穿着特征数据、颜色特征数据等对生成的人物模型一一进行渲染。进一步地,还可采用全景拼接融合技术将不同朝向的图像信息进行拼接处理,从而最终生成与所拍摄的待标识联系人相对应的三维人物形象。进一步地,在生成所述待标识联系人的三维形象后,将所述三维形象保存,以便在接收到联系人标识指令时,将所述三维形象与所述联系人关联起来。
需要说明的是,在本实施例中,所述三维形象引擎是为便于生成本发明中的三维形象而开发的一种三维图形引擎。当前一般都是在微机上使用OpenGL或DirectX等大型开发工具编写三维图形应用,但由于三维图形涉及到许多算法和专业知识,要快速的开发三维应用程序仍然具有一定的困难。因此,3D应用程序的开发需要一个封装了硬件操作和图形算法,同时也简单易用且功能丰富的三维图形开发环境,而这个三维图形开发环境可以称作三维图形引擎。比如OGRE(Object-Oriented Graphics Rendering Engine,面向对象图形渲染引擎)、OSG(Open Scene Graph)等。
本实施例中,移动终端基于待标识联系人的全景照片进行生成三维形象所需的特征数据的提取,进而根据所提取的特征数据,启动三维形象引擎以生成相应的三维形象。本发明能够方便快捷生成所拍摄对象的三维形象,并用于标识相应的联系人,从而满足用户的个性化使用需求,提升用户使用体验。
进一步地,基于上述第三实施例提出本发明移动终端的第四实施例,参照图6,所述第一提取单元12包括:标定子单元121及获取子单元122。
所述标定子单元121,用于提取所述图像数据中的人像数据,并对所述图像数据中不同朝向的所述人像数据进行标定;
由于拍摄所得到的图像数据中包含有待标识联系人的人像数据以及该人物对象所在环境的图像数据,因此,标定子单元121首先需要将待标识联系人的人像数据从所述图像数据中提取出来单独进行处理。具体的,由于图像数据中待标识联系人的人像数据为一整体的闭合区域,因此,可采用图像边缘检测算法区分人物与背景环境,进而将所检测确定的像素边缘闭合后所对应的图像数据提取出来即可得到待标识联系人的人像数据。此外,又由于所述图像数据包括不同朝向的图像数据,因此标定子单元121还需要对不同朝向的图像数据中的所述人像数据进行一一标定以用于进行区分。例如,可采用人体朝向检测算法对所述人像数据进行标定,比如以人物对象的正面为参照,每隔45°标定一个人体朝向,则对于360°方位的人物对象的朝向可标定为八个朝向。不同朝向下对应的人物对象图像中的特征数据绝大部分都不相同,因此可进行不同朝向方向下的人物对象特征数据提取。
所述第一提取子单元122,用于从所述待标识联系人在不同朝向下的所述人像数据获取特征数据,所述特征数据包括人脸纹理特征数据、身体比例的特征数据、发型特征数据、穿着特征数据、颜色特征数据。
脸部图像数据特征是一个非常重要的区别特征,因此,本实施例中第一提取子单元122需要对不同朝向下所有图像数据进行人脸检测,并确定存在人脸的图像数据中人脸图像所在位置区域,然后再在此基础上定位人脸关键点的位置,比如眼睛中心、嘴角、鼻梁等,由于拍摄过程中所选定的拍摄距离、角度的不同,因而对应的图像中人物的头部大小、角度朝向也不相同,因此可通过将人脸通过缩放和/或旋转和/或拉伸等处理以得到一个预设的标准大小的正常脸部头像后再进行脸部区域特征数据的提取。本实施例中,对于脸部区域特征数据的提取方式不限,例如可采用LBP算法(Local Binary Patterns,局部二值模式),或者HOG算法(Histogram of Oriented Gradient,方向梯度直方图)、Gabor滤波器算法等进行图像的特征提取。
为使得生成的三维人物形象更为逼真,因此,除需要提取三维人物的脸部特征数据外,所述第一提取子单元122还需要确定不同朝向下所述人像数据中的头部、上半身、下半身及四肢所在区域以提取所述待标识联系人的头部、上半身、下半身及四肢的长度比例的特征数据即身体比例的特征数据具体的,可以从人像数据中根据人体不同部位的相对位置以及相关度函数来区分出人物的头部、上半身、下半身和四肢的区域,然后根据所占像素的比例提取出头部、上半身、下半身以及四肢的长度比例的特征数据。
此外,为使得生成的三维人物形象更为逼真,所述第一提取子单元122还可以提取不同朝向下所述人像数据的发型特征数据、穿着特征数据、颜色特征数据等。具体的,可以采用边缘检测及特征提取相结合的方式,获取待标识联系人发型的360°外观特征数据;根据上半身与下半身区域,对待标识联系人的穿着进行特征检测,从而抽取衣着的外形款式以及主要印花等特征数据;进一步地,也可对待标识联系人的头发颜色、皮肤颜色、瞳孔颜色、穿着颜色等颜色特征数据进行抽取。
本实施例中,为使得最终生成的三维人物形象更为逼真,因此,需要从待标识联系人的整体图像数据中提取更多的特征数据,包括最具区别性的脸部特征数据以及身体四肢比例数据、发型特征数据、穿着特征数据、颜色特征数据等,从而为用户提供更具可玩性的三维人物形象。
进一步地,基于上述任一实施例提出本发明移动终端的第五实施例,参照图7,所述获取模块10还包括:复制单元14及第二提取单元15。
所述复制单元14,用于在侦测到与所述待标识联系人的通话时,复制所接收到的所述待标识联系人的声音数据,并将复制得到的声音数据作为所述待标识联系人的声音样本;
在本实施例中,可以在侦测到与所述待标识联系人语音通话时,所述复制子单元14通过音频输入接口复制对端传输过来的声音数据,将所复制得到的声音数据作为所述待标识联系人的声音样本;或者,也可以在侦测到录音功能开启时,通过音频输入接口复制麦克风传输的声音数据,将所复制得到的声音数据作为所述待标识联系人的声音样本。具体的,通过在PCM(Pulse Code Modulation,脉冲编码调制)音频接口处,通过复制的方法进行声音样本的采集,复制一份声音数据作为所述待标识联系人的声音样本进行声纹特征信息的提取。
所述第二提取子单元15,用于从所述声音样本中提取声纹特征信息。
在获取到待标识联系人的声音样本后,所述第二提取子单元15,从所述声音样本中提取声纹特征信息。提取所述声纹特征信息的技术可以为:基音频谱及其轮廓、基音帧的能量、基音共振峰的出现频率及其轨迹;线性预测倒谱、线谱对、自相关和对数面积比、MFCC(Mel Frequency Cepstrum Coefficient,Mel频率倒谱系数)、感知线性预测;小波变换技术等。
进一步地,在获取到所述待标识联系人的声纹特征信息后,将该信息保存至移动终端的存储单元中,以供移动终端在接收到联系人标识指令时,将所述声纹特征信息与对应的联系人关联起来。
本实施例通过采集待标识联系人的声纹特征信息,从而为实现根据语音角色对应的声纹特征信息进行语音播报提供了基础。
本发明进一步提供一种联系人标识方法,参照图9,图9为本发明联系人标识方法的第一实施例的流程示意图。
在本实施例中,所述联系人标识方法包括以下步骤:
步骤S10,当接收到联系人标识指令时,获取待标识联系人对应的三维形象及声纹特征信息;
在本实施例中,可以提供用于标识联系人的快捷图标,供用户基于所述快捷图标触发联系人标识指令;或者,也可以通过提供用于标识联系人的物理按键,供用户基于所述物理按键触发联系人标识指令;或者,也可以通过提供用于标识联系人的虚拟按键,供用户基于所述虚拟按键触发联系人标识指令。所述声纹特征信息可以为语音信号的语音频谱参数、线性预测参数、小波特征参数等。当接收到用户触发的联系人标识指令时,获取存储于移动终端存储单元中的待标识联系人对应的三维形象及声纹特征信息。比如,用户触发将联系人小王的信息与小王的三维形象及声纹特征信息进行标识的指令,则获取移动终端中预存的小王的三维形象及小王的声纹特征信息,又如,用户触发将联系人小李的信息与小李的三维形象及声纹特征信息进行标识的指令,则获取移动终端中预存的小李王的三维形象及小王的声纹特征信息。
步骤S20,采用获取的所述三维形象及声纹特征信息对所述待标识联系人进行标识,以在查看所述待标识联系人信息时,进行具有三维形象及联系人声纹特征信息的语音播报。
当获取到所述待标识联系人的三维形象及声纹特征信息后,对所述待标识联系人进行标识,即建立所述待标识联系人与其三维形象及声纹特征信息的映射关系。
所述待标识联系人信息可以为联系人应用中待标识联系人信息,或者为短信应用中待标识联系人发的短信信息等。所述具有三维形象及联系人声纹特征信息的语音播报为在语音播报时,在移动终端屏幕显示联系人的三维形象,同时使用联系人的声纹特征信息对待播报的文本信息进行语音播报。所述具有三维形象及联系人声纹特征信息的语音播报的举例如下:若待标识联系人信息可以为联系人应用中待标识联系人信息,则当查看某个联系人信息时,会在移动终端的屏幕上显示该联系人的三维形象,并使用该联系人的声纹特征信息播报所述联系人信息,所述联系人信息包括联系人电话号码、联系人地址、联系人工作单位等;若所述待标识联系人信息为短信应用中待标识联系人发的短信信息,则当查看所述待标识联系人发的短信信息时,会在移动终端的屏幕上显示发送该短信的联系人的三维形象,并使用该联系人的声纹特征信息播报所述短信内容;进一步地,本发明的思想也可应用于语音助手等应用中,则当用户打开语音助手时,用户可以选择用户聊天的联系人,当选定联系人之后,移动终端的屏幕会显示该联系人所关联的三维形象,且在聊天时,语音助手的人物会使用该联系人关联的声纹特征信息播报聊天的内容,从而做到用户好像是和真的联系人进行聊天一样,提高用户体验。
本发明提出的移动终端及其联系人标识方法,通过当接收到联系人标识指令时,获取待标识联系人的三维形象及声纹特征信息,并采用获取的所述三维形象及声纹特征信息对所述待标识联系人进行标识,从而有效解决了现有联系人的标识方式十分简单,且不够生动形象的问题,同时在在查看所述待标识联系人信息时,对所述待标识联系人信息进行具有三维形象及联系人声纹特征信息的语音播报,从而满足了用户日益增长的个性化需求,提高用户的体验及可玩性。
进一步地,基于第一实施例提出本发明联系人标识方法的第二实施例,参照图10,所述在查看所述待标识联系人信息时,进行具有三维形象及联系人声纹特征信息的语音播报的步骤包括:
步骤S21,在查看所述待标识联系人信息时,确定待播报文本,并合成所述待播报文本的标准发音;
步骤S22,根据所述待标识联系人的声纹特征信息对所述标准发音进行修饰,得到所述待标识联系人的发音特征的声音波形;
步骤S23,输出所述声音波形进行语音播报,并在移动终端的屏幕上显示所述待标识联系人的三维形象。
当查看所述待标识联系人信息时,首先确定待播报文本,并合成所述待播报文本的标准发音;然后根据所述待标识联系人的声纹特征信息对所述标准发音进行修饰,得到所述待标识联系人的发音特征的声音波形;最后所述输出所述声音波形进行语音播报,同时在移动终端的屏幕上显示所述待标识联系人的三维形象,实现三维形象及声纹特征信息播报。优选的,可在输出所述声音波形时,可以将所述声音波形发送至音频输出接口(如MIC、耳机、HDMI、自带的扬声器等)进行播报。
本实施例通过在进行具有声纹特征信息的语音播报时,同时显示待标识联系人的三维形象,使得语音播报的过程更加生动形象,提高了用户体验性。
进一步地,基于第一或第二实施例提出本发明联系人标识方法的第三实施例,参照图11,所述步骤S10包括:
步骤S11,启动移动终端的摄像头应用中的全景拍摄模式以拍摄待并存储所述待标识联系人的图像数据;
本实施例中,通过启动摄像头应用中的全景拍摄模式,对拍照对象即所述待标识联系人进行对焦,然后沿同一距离开始围绕拍照对象进行圆周运动,顺时针或逆时针均可,直到摄像头获取了拍照对象360°方位的图像数据,过程如图8所示。在拍摄全景照片的过程中,为了保证获取的不同角度及方位的图像之间有足够的重叠信息以供后续进行三维模型的拼接处理,可以在拍摄过程中可使用重力传感器、姿态传感器、陀螺仪、罗盘等对拍摄过程进行监测,以判断当前的移动终端是否处于合适的水平位置,并根据检测情况给予用户一定的语音提示。比如:摄像头是否移动在一个可容忍的拍摄角度位置,摄像头转动的角度是否过大或过小等,从而保证获取的不同角度及方位的图像之间有足够的重叠信息。待拍摄完成后,还需把拍摄的全景照片即图像数据保存至移动终端的存储单元内,以便于后续进行三维形象的生成处理。
步骤S12,从所述图像数据中提取生成所述待标识联系人的三维形象所需的特征数据;
在获得所述待标识联系人的图像数据后,从所述图像数据中提取生成所述待标识联系人的三维形象所需的特征数据。所述特征数据包括面部纹理、发型的360°外观特征、肤色、发色、瞳孔颜色、身高、穿着、四肢比例等特征数据。
步骤S13,根据所提取的所述特征数据,启动三维形象引擎以生成所述待标识联系人的三维形象,并保存所述三维形象。
在提取到生成所述待标识联系人的三维形象所需的特征数据后,根据所提取的所述特征数据,启动三维形象引擎以生成所述待标识联系人的三维形象。具体的,将提取的所述特征数据进行升维计算,计算出在三维空间中整体人物的长宽高以及四肢比例数据,以生成一个初步的人物模型,然后使用从全景图片中相对应的图像数据中所提取的特征数据,比如脸部特征数据、发型特征数据、穿着特征数据、颜色特征数据等对生成的人物模型一一进行渲染。进一步地,还可采用全景拼接融合技术将不同朝向的图像信息进行拼接处理,从而最终生成与所拍摄的待标识联系人相对应的三维人物形象。在生成所述待标识联系人的三维形象后,将所述三维形象保存,以便在接收到联系人标识指令时,将所述三维形象与所述联系人关联起来。
需要说明的是,在本实施例中,所述三维形象引擎是为便于生成本发明中的三维形象而开发的一种三维图形引擎。当前一般都是在微机上使用OpenGL或DirectX等大型开发工具编写三维图形应用,但由于三维图形涉及到许多算法和专业知识,要快速的开发三维应用程序仍然具有一定的困难。因此,3D应用程序的开发需要一个封装了硬件操作和图形算法,同时也简单易用且功能丰富的三维图形开发环境,而这个三维图形开发环境可以称作三维图形引擎。比如OGRE(Object-Oriented Graphics Rendering Engine,面向对象图形渲染引擎)、OSG(Open Scene Graph)等。
本实施例中,移动终端基于待标识联系人的全景照片进行生成三维形象所需的特征数据的提取,进而根据所提取的特征数据,启动三维形象引擎以生成相应的三维形象。本发明能够方便快捷生成所拍摄对象的三维形象,并用于标识相应的联系人,从而满足用户的个性化使用需求,提升用户使用体验。
进一步地,基于上述第三实施例提出本发明联系人标识方法的第四实施例,参照图12,在本实施例中,所述步骤12包括:
步骤S121,提取所述图像数据中的人像数据,并对所述图像数据中不同朝向的所述人像数据进行标定;
由于拍摄所得到的图像数据中包含有待标识联系人的人像数据以及该人物对象所在环境的图像数据,因此,首先需要将待标识联系人的人像数据从所述图像数据中提取出来单独进行处理。具体的,由于图像数据中待标识联系人的人像数据为一整体的闭合区域,因此,可采用图像边缘检测算法区分人物与背景环境,进而将所检测确定的像素边缘闭合后所对应的图像数据提取出来即可得到待标识联系人的人像数据。此外,又由于所述图像数据包括不同朝向的图像数据,因此,还需要对不同朝向的图像数据中的所述人像数据进行一一标定以用于进行区分。例如,可采用人体朝向检测算法对所述人像数据进行标定,比如以人物对象的正面为参照,每隔45°标定一个人体朝向,则对于360°方位的人物对象的朝向可标定为八个朝向。不同朝向下对应的人物对象图像中的特征数据绝大部分都不相同,因此可进行不同朝向方向下的人物对象特征数据提取。
步骤S122,从所述待标识联系人在不同朝向下的所述人像数据获取特征数据,所述特征数据包括人脸纹理特征数据、身体比例的特征数据、发型特征数据、穿着特征数据、颜色特征数据。
脸部图像数据特征是一个非常重要的区别特征,因此,本实施例中,需要对不同朝向下所有图像数据进行人脸检测,并确定存在人脸的图像数据中人脸图像所在位置区域,然后再在此基础上定位人脸关键点的位置,比如眼睛中心、嘴角、鼻梁等,由于拍摄过程中所选定的拍摄距离、角度的不同,因而对应的图像中人物的头部大小、角度朝向也不相同,因此可通过将人脸通过缩放和/或旋转和/或拉伸等处理以得到一个预设的标准大小的正常脸部头像后再进行脸部区域特征数据的提取。本实施例中,对于脸部区域特征数据的提取方式不限,例如可采用LBP算法(Local Binary Patterns,局部二值模式),或者HOG算法(Histogram of Oriented Gradient,方向梯度直方图)、Gabor滤波器算法等进行图像的特征提取。
为使得生成的三维人物形象更为逼真,因此,除需要提取三维人物的脸部特征数据外,还需要确定不同朝向下所述人像数据中的头部、上半身、下半身及四肢所在区域以提取所述待标识联系人的头部、上半身、下半身及四肢的长度比例的特征数据即身体比例的特征数据具体的,可以从人像数据中根据人体不同部位的相对位置以及相关度函数来区分出人物的头部、上半身、下半身和四肢的区域,然后根据所占像素的比例提取出头部、上半身、下半身以及四肢的长度比例的特征数据。
此外,为使得生成的三维人物形象更为逼真,还可以提取不同朝向下所述人像数据的发型特征数据、穿着特征数据、颜色特征数据等。具体的,可以采用边缘检测及特征提取相结合的方式,获取待标识联系人发型的360°外观特征数据;根据上半身与下半身区域,对待标识联系人的穿着进行特征检测,从而抽取衣着的外形款式以及主要印花等特征数据;进一步地,也可对待标识联系人的头发颜色、皮肤颜色、瞳孔颜色、穿着颜色等颜色特征数据进行抽取。
本实施例中,为使得最终生成的三维人物形象更为逼真,因此,需要从待标识联系人的整体图像数据中提取更多的特征数据,包括最具区别性的脸部特征数据以及身体四肢比例数据、发型特征数据、穿着特征数据、颜色特征数据等,从而为用户提供更具可玩性的三维人物形象。
进一步地,基于上述任一实施例提出本发明联系人标识方法的第五实施例,参照图13,所述步骤S10还包括;
步骤S14,在侦测到与所述待标识联系人的通话时,复制所接收到的所述待标识联系人的声音数据,并将复制得到的声音数据作为所述待标识联系人的声音样本;
在本实施例中,可以在侦测到与所述待标识联系人语音通话时,通过音频输入接口复制对端传输过来的声音数据,将所复制得到的声音数据作为所述待标识联系人的声音样本;或者,也可以在侦测到录音功能开启时,通过音频输入接口复制麦克风传输的声音数据,将所复制得到的声音数据作为所述待标识联系人的声音样本。具体的,通过在PCM(Pulse Code Modulation,脉冲编码调制)音频接口处,通过复制的方法进行声音样本的采集,复制一份声音数据作为所述待标识联系人的声音样本进行声纹特征信息的提取。
步骤S15,从所述声音样本中提取声纹特征信息。
在获取到待标识联系人的声音样本后,从所述声音样本中提取声纹特征信息。提取所述声纹特征信息的技术可以为:基音频谱及其轮廓、基音帧的能量、基音共振峰的出现频率及其轨迹;线性预测倒谱、线谱对、自相关和对数面积比、MFCC(Mel FrequencyCepstrum Coefficient,Mel频率倒谱系数)、感知线性预测;小波变换技术等。
进一步地,在获取到所述待标识联系人的声纹特征信息后,将该信息保存至移动终端的存储单元中,以供移动终端在接收到联系人标识指令时,将所述声纹特征信息与对应的联系人关联起来。
本实施例通过采集待标识联系人的声纹特征信息,从而为实现根据语音角色对应的声纹特征信息进行语音播报提供了基础。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种移动终端,其特征在于,所述移动终端包括:
获取模块,用于当接收到联系人标识指令时,获取待标识联系人对应的三维形象及声纹特征信息;
标识模块,用于采用获取的所述三维形象及声纹特征信息对所述待标识联系人进行标识;
播报模块,用于在查看所述待标识联系人信息时,进行具有三维形象及联系人声纹特征信息的语音播报;
其中,所述具有三维形象及联系人声纹特征信息的语音播报为在语音播报时,在移动终端屏幕显示联系人的三维形象,同时使用联系人的声纹特征信息对待播报的文本信息进行语音播报。
2.如权利要求1所述的移动终端,其特征在于,所述播报模块包括:
合成单元,用于在查看所述待标识联系人信息时,确定待播报文本,并合成所述待播报文本的标准发音;
修饰单元,用于根据所述待标识联系人的声纹特征信息对所述标准发音进行修饰,得到所述待标识联系人的发音特征的声音波形;
输出单元,用于输出所述声音波形进行语音播报,并在移动终端的屏幕上显示所述待标识联系人的三维形象。
3.如权利要求1所述的移动终端,其特征在于,所述获取模块包括:
拍照单元,用于启动移动终端的摄像头应用中的全景拍摄模式以拍摄并存储所述待标识联系人的图像数据;
第一提取单元,用于从所述图像数据中提取生成所述待标识联系人的三维形象所需的特征数据;
生成单元,用于根据所提取的所述特征数据,启动三维形象引擎以生成所述待标识联系人的三维形象。
4.如权利要求3所述的移动终端,其特征在于,第一提取单元包括:
标定子单元,用于提取所述图像数据中的人像数据,并对所述图像数据中不同朝向的所述人像数据进行标定;
获取子单元,用于从所述待标识联系人在不同朝向下的所述人像数据获取特征数据,所述特征数据包括人脸纹理特征数据、身体比例的特征数据、发型特征数据、穿着特征数据、颜色特征数据。
5.如权利要求1至4任一项所述的移动终端,其特征在于,所述获取模块还包括:
复制单元,用于在侦测到与所述待标识联系人的通话时,复制所接收到的所述待标识联系人的声音数据,并将复制得到的声音数据作为所述待标识联系人的声音样本;
第二提取单元,用于从所述声音样本中提取声纹特征信息。
6.一种联系人标识方法,其特征在于,所述联系人标识方法包括:
当接收到联系人标识指令时,获取待标识联系人对应的三维形象及声纹特征信息;
采用获取的所述三维形象及声纹特征信息对所述待标识联系人进行标识,以在查看所述待标识联系人信息时,进行具有三维形象及联系人声纹特征信息的语音播报;
其中,所述具有三维形象及联系人声纹特征信息的语音播报为在语音播报时,在移动终端屏幕显示联系人的三维形象,同时使用联系人的声纹特征信息对待播报的文本信息进行语音播报。
7.如权利要求6所述的联系人标识方法,其特征在于,所述在查看所述待标识联系人信息时,进行具有三维形象及联系人声纹特征信息的语音播报的步骤包括:
在查看所述待标识联系人信息时,确定待播报文本,并合成所述待播报文本的标准发音;
根据所述待标识联系人的声纹特征信息对所述标准发音进行修饰,得到所述待标识联系人的发音特征的声音波形;
输出所述声音波形进行语音播报,并在移动终端的屏幕上显示所述待标识联系人的三维形象。
8.如权利要求6所述的联系人标识方法,其特征在于,所述获取待标识联系人对应的三维形象的步骤包括:
启动移动终端的摄像头应用中的全景拍摄模式以拍摄并存储所述待标识联系人的图像数据;
从所述图像数据中提取生成所述待标识联系人的三维形象所需的特征数据;
根据所提取的所述特征数据,启动三维形象引擎以生成所述待标识联系人的三维形象。
9.如权利要求8所述的联系人标识方法,其特征在于,所述从所述图像数据中提取生成所述待标识联系人的三维形象所需的特征数据的步骤包括:
提取所述图像数据中的人像数据,并对所述图像数据中不同朝向的所述人像数据进行标定;
从所述待标识联系人在不同朝向下的所述人像数据获取特征数据,所述特征数据包括人脸纹理特征数据、身体比例的特征数据、发型特征数据、穿着特征数据、颜色特征数据。
10.如权利要求6至9任一项所述的联系人标识方法,其特征在于,所述获取待标识联系人对应的声纹特征的步骤包括:
在侦测到与所述待标识联系人的通话时,复制所接收到的所述待标识联系人的声音数据,并将复制得到的声音数据作为所述待标识联系人的声音样本;
从所述声音样本中提取声纹特征信息。
CN201511004834.0A 2015-12-28 2015-12-28 移动终端及其联系人标识方法 Active CN105635452B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201511004834.0A CN105635452B (zh) 2015-12-28 2015-12-28 移动终端及其联系人标识方法
PCT/CN2016/107329 WO2017114048A1 (zh) 2015-12-28 2016-11-25 移动终端及联系人标识方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511004834.0A CN105635452B (zh) 2015-12-28 2015-12-28 移动终端及其联系人标识方法

Publications (2)

Publication Number Publication Date
CN105635452A CN105635452A (zh) 2016-06-01
CN105635452B true CN105635452B (zh) 2019-05-10

Family

ID=56049914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511004834.0A Active CN105635452B (zh) 2015-12-28 2015-12-28 移动终端及其联系人标识方法

Country Status (2)

Country Link
CN (1) CN105635452B (zh)
WO (1) WO2017114048A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105635452B (zh) * 2015-12-28 2019-05-10 努比亚技术有限公司 移动终端及其联系人标识方法
CN106686184A (zh) * 2017-01-13 2017-05-17 北京搜狗科技发展有限公司 一种添加联系人方法、电子设备及服务器
CN107680598B (zh) * 2017-09-04 2020-12-11 百度在线网络技术(北京)有限公司 基于好友声纹通讯录的信息交互方法、装置及其设备
WO2019087016A1 (en) 2017-10-30 2019-05-09 Glaxosmithkline Intellectual Property Development Limited Compounds useful in hiv therapy
CN111261139B (zh) * 2018-11-30 2023-12-26 上海擎感智能科技有限公司 文字拟人化播报方法及系统
CN110308792B (zh) * 2019-07-01 2023-12-12 北京百度网讯科技有限公司 虚拟角色的控制方法、装置、设备及可读存储介质
CN111798829A (zh) * 2020-06-30 2020-10-20 中国联合网络通信集团有限公司 语音朗读文字信息的方法、系统、计算机设备及存储介质
CN112820270A (zh) * 2020-12-17 2021-05-18 北京捷通华声科技股份有限公司 语音播报方法、装置和智能设备
CN113012679A (zh) * 2021-02-20 2021-06-22 北京百度网讯科技有限公司 通过语音播报消息的方法、设备和介质
CN114549706A (zh) * 2022-02-21 2022-05-27 成都工业学院 一种动画生成方法及动画生成装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1159702C (zh) * 2001-04-11 2004-07-28 国际商业机器公司 具有情感的语音-语音翻译系统和方法
CN101645954A (zh) * 2009-08-31 2010-02-10 深圳华为通信技术有限公司 终端通信录管理方法和终端设备
CN102170490B (zh) * 2011-03-18 2014-11-05 惠州Tcl移动通信有限公司 老人手机及其拨号方法
CN102915350A (zh) * 2012-09-29 2013-02-06 北京小米科技有限责任公司 一种查询联系人信息的方法、装置和设备
CN107274916B (zh) * 2012-12-05 2021-08-20 北京三星通信技术研究有限公司 基于声纹信息对音频/视频文件进行操作的方法及装置
CN103067558B (zh) * 2013-01-17 2016-08-03 努比亚技术有限公司 与通讯录中联系人的图片相关联的方法和装置
US20150046164A1 (en) * 2013-08-07 2015-02-12 Samsung Electronics Co., Ltd. Method, apparatus, and recording medium for text-to-speech conversion
CN104464716B (zh) * 2014-11-20 2018-01-12 北京云知声信息技术有限公司 一种语音播报系统和方法
CN105635452B (zh) * 2015-12-28 2019-05-10 努比亚技术有限公司 移动终端及其联系人标识方法

Also Published As

Publication number Publication date
WO2017114048A1 (zh) 2017-07-06
CN105635452A (zh) 2016-06-01

Similar Documents

Publication Publication Date Title
CN105635452B (zh) 移动终端及其联系人标识方法
CN108769562B (zh) 生成特效视频的方法和装置
CN112532869B (zh) 一种拍摄场景下的图像显示方法及电子设备
CN105959554B (zh) 视频拍摄装置及方法
CN105430295B (zh) 图像处理装置及方法
CN108401124B (zh) 视频录制的方法和装置
CN111726536A (zh) 视频生成方法、装置、存储介质及计算机设备
CN105472246B (zh) 拍照装置及方法
CN105513021B (zh) 图像去噪装置和方法
CN109831636A (zh) 互动视频控制方法、终端及计算机可读存储介质
CN105427369A (zh) 移动终端及其三维形象的生成方法
CN110572711A (zh) 视频封面生成方法、装置、计算机设备及存储介质
CN110559645B (zh) 一种应用的运行方法及电子设备
CN112257552B (zh) 图像处理方法、装置、设备及存储介质
CN112840635A (zh) 智能拍照方法、系统及相关装置
CN110300274A (zh) 视频文件的录制方法、装置及存储介质
CN110138999B (zh) 一种用于移动终端的证件扫描方法及装置
CN113935898A (zh) 图像处理方法、系统、电子设备及计算机可读存储介质
CN112287852A (zh) 人脸图像的处理方法、显示方法、装置及设备
CN106534667A (zh) 分布式协同渲染方法及终端
CN110827195A (zh) 虚拟物品添加方法、装置、电子设备及存储介质
CN108462826A (zh) 一种辅助拍照的方法及移动终端
CN108965697A (zh) 一种拍摄控制方法、终端及计算机可读存储介质
CN113542580A (zh) 去除眼镜光斑的方法、装置及电子设备
CN113536834A (zh) 眼袋检测方法以及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant