WO2021014990A1 - 音声処理装置、音声処理方法、および記録媒体 - Google Patents

音声処理装置、音声処理方法、および記録媒体 Download PDF

Info

Publication number
WO2021014990A1
WO2021014990A1 PCT/JP2020/026903 JP2020026903W WO2021014990A1 WO 2021014990 A1 WO2021014990 A1 WO 2021014990A1 JP 2020026903 W JP2020026903 W JP 2020026903W WO 2021014990 A1 WO2021014990 A1 WO 2021014990A1
Authority
WO
WIPO (PCT)
Prior art keywords
background sound
call
party
call partner
unit
Prior art date
Application number
PCT/JP2020/026903
Other languages
English (en)
French (fr)
Inventor
知行 河部
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2021533934A priority Critical patent/JP7375817B2/ja
Priority to US17/627,948 priority patent/US20220293084A1/en
Priority to EP20844448.9A priority patent/EP4007243A4/en
Publication of WO2021014990A1 publication Critical patent/WO2021014990A1/ja

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/57Arrangements for indicating or recording the number of the calling subscriber at the called subscriber's set
    • H04M1/575Means for retrieving and displaying personal data about calling party
    • H04M1/578Means for retrieving and displaying personal data about calling party associated with a synthesized vocal announcement
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M19/00Current supply arrangements for telephone systems
    • H04M19/02Current supply arrangements for telephone systems providing ringing current or supervisory tones, e.g. dialling tone or busy tone
    • H04M19/04Current supply arrangements for telephone systems providing ringing current or supervisory tones, e.g. dialling tone or busy tone the ringing-current being generated at the substations
    • H04M19/041Encoding the ringing signal, i.e. providing distinctive or selective ringing capability

Definitions

  • the present invention relates to a voice processing device, a voice processing method, and a recording medium, and more particularly to a voice processing device, a voice processing method, and a recording medium that synthesize a voice signal of a call with a background sound.
  • acoustic AR Augmented Reality
  • Patent Document 1 uses a posture information sensor and left and right independent speakers to define a virtual position for the user to perceive that voice is heard from the other party (sound image localization). .. As a result, the user feels as if he / she is sharing a virtual space with a plurality of callees.
  • Patent Document 2 describes that the speaker information (for example, the name or nickname of the other party) heard from the direction specified by the user is output by voice by a predetermined operation of the user.
  • the speaker information for example, the name or nickname of the other party
  • the user can determine who the other party is by looking at the image of the other party, the name of the other party, and the nickname displayed on the display.
  • the user in the absence of a display, the user must determine who the caller is by hearing alone.
  • the technique described in Patent Document 1 when the other party is silent, the user cannot know who the other party is by hearing.
  • Patent Document 2 since the user does not notice that there is a silent call partner, there is no motivation to perform a predetermined operation in order to output the speaker information by voice.
  • the present invention has been made in view of the above problems, and an object of the present invention is to provide a voice processing device or the like that enables a user to easily identify a call partner only by hearing.
  • the voice processing device talks with a call partner identification means for identifying a call partner, a background sound selection means for selecting a background sound corresponding to the identified call partner, and the selected background sound. It is equipped with a synthesis means for synthesizing the voice signal of.
  • the voice processing method identifies a call partner, selects a background sound corresponding to the identified call partner, and synthesizes the selected background sound with the voice signal of the call.
  • a program recorded on a computer-readable recording medium identifies a call partner, selects a background sound corresponding to the identified call partner, and selects the background sound. Let the computer perform the synthesis with the voice signal of the call.
  • the user can easily identify the other party by hearing only.
  • FIG. It is a block diagram which shows the structure of the voice processing apparatus which concerns on Embodiment 1.
  • FIG. It is a flowchart which shows the operation of the voice processing apparatus which concerns on Embodiment 1.
  • It is a flowchart which shows the flow
  • the user is talking to the other party by using the calling device.
  • the other party may be one or more people.
  • the calling device used by the user is hereinafter referred to as the user's calling device.
  • the calling device used by the user's calling party is hereinafter referred to as a calling device of the calling party.
  • the calling device is, for example, a mobile terminal, a computer device, or a telephone.
  • the calling device is also called a voice device.
  • a communication network such as the Internet or a telephone line, is connected between the calling device of the other party and the calling device of the user. The user is talking to the other party using the user's calling device.
  • FIG. 1 is a block diagram showing a configuration of a voice processing device 1 according to the first embodiment.
  • the voice processing device 1 includes a call partner identification unit 11, a background sound selection unit 12, and a synthesis unit 13.
  • the functions of each part of the voice processing device 1 described below may be realized as software by executing a program read into the memory by a processor included in a user's telephone device (not shown).
  • the call partner identification unit 11 identifies the call partner.
  • the call partner identification unit 11 is an example of a call partner identification means. Specifically, the call partner identification unit 11 receives incidental information from the call device (not shown) of the call partner.
  • Ancillary information includes information that identifies the calling device of the other party.
  • the incidental information is, for example, a terminal ID (Identification) that identifies the calling device of the other party.
  • the incidental information may be the telephone number of the calling device of the other party.
  • the incidental information is not limited to the terminal ID and the telephone number.
  • the incidental information may be information that identifies the other party (for example, biometric authentication information).
  • the call partner identification unit 11 identifies the call partner based on the incidental information received from the call device of the call partner.
  • the other party identification unit 11 refers to the data of the owner list stored in the memory (not shown).
  • the data of the owner list (hereinafter, simply referred to as the owner list) is associated with the terminal ID and the information about the owner of the calling device.
  • the call partner identification unit 11 identifies the call partner based on the terminal ID. For example, the call partner identification unit 11 identifies that the owner of the call device identified by the terminal ID is the call partner by referring to the owner list.
  • the call partner identification unit 11 transmits information indicating the identified call partner (for example, a caller ID included in the owner list) to the background sound selection unit 12.
  • the background sound selection unit 12 selects the background sound according to the identified call partner.
  • the background sound selection unit 12 is an example of the background sound selection means.
  • the background sound selection unit 12 refers to a caller-background sound table (not shown) showing the correspondence between the caller and the background sound, and selects the background sound according to the other party.
  • the caller-background acoustic table is stored in memory or storage.
  • the background sound is the sound that the user hears so as to overlap with the main voice (here, the voice of the call).
  • the background sound has a low volume that does not prevent the user from listening to the main sound.
  • the background sound is, for example, one of BGM (BackGroundMusic), ambient sound (ambient), and sound effect.
  • BGM BackGroundMusic
  • ambient sound ambient
  • sound effect Alternatively, the background sound may be a combination of these.
  • the caller ID that identifies the other party is associated with the information indicating the background sound (background sound information).
  • the caller-background acoustic table may be prepared in advance by the user (here, the listener).
  • the background sound selection unit 12 may select a different background sound for each other party (here, the speaker) by any method. For example, the background sound selection unit 12 assigns different background sounds to each other party based on the sensing information acquired as incidental information (Embodiment 4).
  • the synthesis unit 13 synthesizes the voice signal of the call and the selected background sound.
  • the synthesis unit 13 is an example of synthesis means. Specifically, the synthesis unit 13 generates an audio signal in which the background sound is superimposed on the audio signal of the call (hereinafter, referred to as an audio signal with a background sound).
  • the synthesis unit 13 when another existing background sound is already superimposed on the voice signal of the call, the synthesis unit 13 outputs the background sound selected by the background sound selection unit 12 together with the other existing background sound. You may. Alternatively, the compositing unit 13 may mute or reduce the volume of the other existing background sound, while outputting the background sound selected by the background sound selection unit 12 at a louder volume than the other existing background sound. ..
  • the compositing unit 13 performs sound image localization processing on the voice signal with background sound so that the user can hear the voice signal with background sound from a virtual place preset for each other party. May be good.
  • the synthesis unit 13 adjusts the volume and presence of the audio signal with background sound. As a result, the synthesis unit 13 defines a virtual position of the sound image of the voice signal with background sound. The user who listens to the audio signal with background sound output from the speaker or the like perceives the sound image of the audio signal with background sound at a virtual position defined by the synthesizer 13.
  • the synthesis unit 13 may convert the pitch, intensity, timbre, or a combination thereof with respect to the background sound according to the group to which the call partner identified by the call partner identification unit 11 belongs.
  • the configuration in which the other party is classified into a plurality of groups will be described in the third embodiment.
  • the synthesis unit 13 outputs the audio signal with background sound generated in this way.
  • FIG. 2 is a flowchart showing a flow of processing executed by the voice processing device 1.
  • the call partner identification unit 11 identifies the call partner based on the incidental information received from the call device of the call partner (S1).
  • the call partner identification unit 11 transmits information indicating the identified call partner (for example, caller ID) to the background sound selection unit 12.
  • the background sound selection unit 12 selects the background sound according to the other party based on the information (for example, the caller ID) received from the other party identification unit 11 (S2).
  • the background sound selection unit 12 transmits background sound information indicating the selected background sound to the synthesis unit 13.
  • the order of steps S1 and S2 may be reversed or parallel.
  • the synthesis unit 13 receives background sound information from the background sound selection unit 12. In addition, the synthesis unit 13 receives the voice signal of the call.
  • the synthesis unit 13 synthesizes the background sound indicated by the background sound information and the voice signal of the call (S3). Then, the synthesis unit 13 outputs a voice signal (voice signal with background sound) obtained by synthesizing the background sound and the voice signal of the call.
  • the call partner identification unit 11 identifies the call partner.
  • the background sound selection unit 12 selects the background sound according to the identified call partner.
  • the synthesizing unit 13 synthesizes the voice signal of the call and the selected background sound. In this way, the voice signal with background sound obtained by synthesizing the voice signal of the call and the background sound is output. Therefore, the user can easily identify the other party by hearing only.
  • FIG. 3 is a block diagram showing a configuration of a call device 100 on the speaker side (hereinafter, simply referred to as a call device 100).
  • the communication device 100 includes a microphone 101, a memory 102, and a communication unit 103.
  • the calling device 100 may further include a sensor or switch for biometrically authenticating the individual speaker.
  • the call device 100 may acquire information about the posture of the speaker wearing the call device 100 by an image sensor (camera), or may further include a switch or a sensor for selecting a call partner. ..
  • the microphone 101 collects the speaker's remarks.
  • the microphone 101 converts the speaker's remark into a voice signal and transmits the voice signal of the call to the communication unit 103.
  • the memory 102 stores at least the terminal ID for identifying the own device (that is, the calling device 100) and the information indicating the telephone number of the calling device 100.
  • the communication unit 103 acquires information indicating a terminal ID or a telephone number from the memory 102.
  • the communication unit 103 transmits the voice signal of the call received from the microphone 101 to the call device 200 on the listener side, and also includes the information indicating the terminal ID or the telephone number acquired from the memory 102 as incidental information on the call on the listener side.
  • the communication unit 103 may also transmit the sensing information acquired by the call device 100 to the call device 200 on the listener side as incidental information.
  • the incidental information is a terminal ID (Identification) for identifying the calling device of the other party, or a telephone number of the other party.
  • FIG. 4 is a block diagram showing a configuration of a call device 200 on the listener side (hereinafter, simply referred to as a call device 200).
  • the calling device 200 includes a receiving unit 24, a voice processing device 2, and an output control unit 26.
  • the receiving unit 24 receives the voice signal and incidental information (here, the terminal ID) from the communication unit 103 of the calling device 100.
  • the receiving unit 24 transmits the received voice signal to the synthesis unit 13 of the voice processing device 2.
  • the receiving unit 24 transmits the received incidental information to the call partner identification unit 11 of the voice processing device 2.
  • the voice processing device 2 includes a call partner identification unit 11, a background sound selection unit 12, and a synthesis unit 13.
  • the details of the other party identification unit 11, the background sound selection unit 12, and the synthesis unit 13 have been described.
  • each of these parts will be briefly described.
  • the call partner identification unit 11 identifies the call partner. Specifically, the call partner identification unit 11 identifies the call partner based on the incidental information received from the call device of the call partner.
  • the call partner identification unit 11 transmits the identification result of the call partner to the background sound selection unit 12. Specifically, the call partner identification unit 11 transmits the caller ID that identifies the call partner to the background sound selection unit 12.
  • the background sound selection unit 12 selects the sound corresponding to the call partner identified by the call partner identification unit 11. Specifically, the background sound selection unit 12 refers to the setting list (see FIG. 5). When the caller ID of the other party identified by the other party identification unit 11 is registered in the setting list, the background sound selection unit 12 is one BGM associated with the caller ID of the other party in the setting list. Get the data of BackGroundMusic). BGM is a kind of background sound.
  • the background sound selection unit 12 refers to the BGM library (not shown) and which call is registered in the setting list.
  • the data of one BGM that is not associated with the person ID is randomly acquired from the BGM library.
  • the background sound selection unit 12 acquires the sound image localization information associated with the caller ID from the setting list.
  • the sound image localization information is information indicating the coordinate position in the virtual space.
  • the background sound selection unit 12 transmits the selected BGM data (background sound information) and the sound image localization information to the synthesis unit 13.
  • the synthesis unit 13 of the call device 200 receives BGM data and sound image localization information from the background sound selection unit 12. Further, the synthesis unit 13 receives the voice signal of the call from the reception unit 24. The synthesizing unit 13 synthesizes the voice signal of the call and the selected background sound. Specifically, the synthesizing unit 13 generates a voice signal with a background sound in which a background sound (here, BGM) is superimposed on the voice signal of the call.
  • BGM background sound
  • the synthesis unit 13 may output the BGM selected by the background sound selection unit 12 together with the other existing background sound. Good.
  • the synthesizing unit 13 may mute or reduce the volume of other existing background sound, while the BGM selected by the background sound selection unit 12 may be output at a louder volume than the other existing background sound.
  • the compositing unit 13 performs the above-mentioned sound image localization processing on the voice signal with background sound so that the user can hear the voice signal with background sound from a virtual position preset for each other party. You may go.
  • the synthesis unit 13 transmits an audio signal with background sound to the output control unit 26.
  • the output control unit 26 receives an audio signal with background sound from the synthesis unit 13.
  • the output control unit 26 outputs the received audio signal with background sound to a device such as a speaker (not shown).
  • the output control unit 26 may be a component of the voice processing device 2.
  • FIG. 5 is a table showing an example of the setting list. As shown in FIG. 5, the setting list includes the caller ID as incidental information for identifying the other party. In the setting list, the sound image localization information and the background acoustic information are associated with each caller ID.
  • the sound image localization information indicates the virtual position of the sound image.
  • the background acoustic information allows the user to identify the other party from the virtual position of the sound image only by hearing.
  • the background acoustic information is, for example, BGM, environmental sound, or acoustic effect data associated with a caller ID for identifying an individual call partner.
  • FIG. 6 is a flowchart showing the operation flow of the communication device 200.
  • the receiving unit 24 of the calling device 200 of the user receives the voice signal and incidental information of the call from the calling device 100 of the other party (B to F in FIG. 7). (S101).
  • the receiving unit 24 transmits the voice signal of the call to the synthesis unit 13 of the voice processing device 2, and also transmits the incidental information (here, the terminal ID) to the call partner identification unit 11.
  • the call partner identification unit 11 receives incidental information from the reception unit 24.
  • the call partner identification unit 11 identifies the call partner based on the received incidental information (S102). There is one or more parties to call.
  • the call partner identification unit 11 transmits the identification result of the call partner to the background sound selection unit 12. Specifically, when the call partner identification unit 11 succeeds in identifying the call partner, the call partner identification unit 11 transmits the caller ID that identifies the call partner to the background sound selection unit 12. On the other hand, when the call partner identification unit 11 fails to identify the call partner, the call partner identification unit 11 transmits an empty caller ID (None) to the background sound selection unit 12.
  • the background sound selection unit 12 receives the identification result of the other party from the other party identification unit 11.
  • the background sound selection unit 12 determines whether or not the other party has been registered in the setting list (S103). Specifically, the background sound selection unit 12 determines whether or not the caller ID received from the call partner identification unit 11 is included in the setting list.
  • the background sound selection unit 12 selects the background sound (here, BGM) according to the other party (S104A).
  • BGM background sound
  • the background sound selection unit 12 refers to the BGM library and is not associated with any caller ID registered in the setting list (No).
  • BGM is randomly selected (S104B).
  • the background sound selection unit 12 transmits the selected BGM data (background sound information) to the synthesis unit 13 together with the sound image localization information corresponding to the caller ID of the other party.
  • the synthesis unit 13 receives the background sound information and the sound image localization information selected according to the other party from the background sound selection unit 12. Further, the synthesis unit 13 receives the voice signal of the call from the reception unit 24.
  • the synthesis unit 13 synthesizes the voice signal of the received call and the BGM which is the background sound (S105). As a result, the synthesis unit 13 generates an audio signal with background sound.
  • the synthesis unit 13 transmits the generated audio signal with background sound to the output control unit 26.
  • the output control unit 26 receives an audio signal with background sound from the synthesis unit 13.
  • the output control unit 26 outputs the received audio signal with background sound (S106).
  • a user (person shown by A in FIG. 7) is talking with a plurality of call parties (persons shown by B to F in FIG. 7) at the same time using the calling device 200.
  • the user's calling device 200 identifies the other party even if the other party is silent.
  • the BGM associated with the caller ID is output as the background sound. As a result, the user can intuitively know the existence of a silent call partner only by hearing.
  • the call end button (not shown) of the call device 200 When the user presses the call end button (not shown) of the call device 200, the telephone line between the call device 100 and the call device 200 is disconnected. At this time, the call device 200 mutes (mute) the BGM corresponding to the caller ID that identifies the other party. As a result, the user can intuitively know that the call has ended.
  • each part of the voice processing device 2 may execute the above-described processing on the network server without using the internal resources of the communication device 200.
  • the call partner identification unit 11 identifies the call partner.
  • the background sound selection unit 12 selects the background sound according to the identified call partner.
  • the synthesizing unit 13 synthesizes the voice signal of the call and the selected background sound. In this way, the voice signal obtained by synthesizing the voice signal of the call and the background sound is output. Therefore, the user can easily identify the other party by hearing only.
  • the virtual position for each call partner is defined by the sound image localization information according to the call partner. This allows the user to talk to the other party as if they were sharing a virtual space.
  • FIG. 8 is a block diagram showing a configuration of the call device 300 according to the third embodiment. As shown in FIG. 8, the communication device 300 includes a voice processing device 3 instead of the voice processing device 2 described in the second embodiment.
  • the voice processing device 3 As shown in FIG. 8, the voice processing device 3 according to the third embodiment further includes a group determination unit 14 in addition to the call partner identification unit 11, the background sound selection unit 12, and the synthesis unit 13. That is, the voice processing device 3 is different from the voice processing device 2 according to the second embodiment in that the voice processing device 3 includes the group determination unit 14.
  • the details of the other party identification unit 11, the background sound selection unit 12, and the synthesis unit 13 have been described.
  • the basic functions of each of these parts are the same as those in the second embodiment. Therefore, in the third embodiment, the description of each of these parts will be omitted.
  • the call partner identification unit 11 receives the group designation information from the reception unit 24 together with the incidental information.
  • the call partner identification unit 11 identifies the call partner based on the incidental information, as in the first embodiment. Further, the call partner identification unit 11 determines whether or not the user belongs to the designated group based on the group designation information.
  • the other party identification unit 11 instructs the output control unit 26 to mute the output.
  • the other party identification unit 11 transmits the identification result of the other party to the group determination unit 14.
  • the group determination unit 14 receives the identification result of the other party from the other party identification unit 11.
  • the group determination unit 14 determines the group to which the call partner identified by the call partner identification unit 11 belongs.
  • the group determination unit 14 is an example of the group determination means.
  • the group determination unit 14 transmits the determination result of the group to which the call partner belongs to the background sound selection unit 12 together with the identification result of the call partner.
  • the background sound selection unit 12 selects BGM according to the group to which the other party belongs based on the determination result of the group received from the group determination unit 14. It is preferable that the background sounds (that is, the plurality of BGMs) corresponding to the plurality of call parties belonging to the same group have the same characteristics (for example, the same pitch, the same volume, or the same timbre).
  • FIG. 9 is a flowchart showing the operation flow of the communication device 300.
  • the receiving unit 24 of the calling device 300 of the user receives the voice signal and incidental information of the call from the calling device 100 of the other party (A in FIG. 10). Is received (S201).
  • the receiving unit 24 transmits the voice signal of the call to the synthesis unit 13 of the voice processing device 3, and also transmits the incidental information (for example, the terminal ID or the telephone number) and the group designation information to the call partner identification unit 11.
  • the group designation information is information that specifies which group of listeners should listen to the call. The group that is allowed to listen to the call may be designated by the operation of the other party (A in FIG. 10) with respect to the calling device 100.
  • the call partner identification unit 11 receives incidental information and group designation information from the reception unit 24.
  • the call partner identification unit 11 determines whether or not the user (that is, the owner of the call device 300) belongs to the designated group based on the received group designation information (S202).
  • the other party identification unit 11 instructs the output control unit 26 to mute the output (S208).
  • the other party identification unit 11 when the user belongs to the second group (D or E), the other party identification unit 11 transmits a mute instruction to the output control unit 26.
  • the other party identification unit 11 when the user belongs to the first group (B or C), the other party identification unit 11 transmits a mute instruction to the output control unit 26.
  • the call partner identification unit 11 identifies the call partner based on the incidental information (S203).
  • the other party identification unit 11 transmits the identification result of the other party to the group determination unit 14.
  • the call partner identification unit 11 transmits the call partner identification result to the group determination unit 14.
  • the call partner identification unit 11 transmits the identification result of the call partner to the group determination unit 14.
  • the call partner identification unit 11 transmits the caller ID that identifies the call partner to the group determination unit 14.
  • the call partner identification unit 11 transmits an empty caller ID (None) to the group determination unit 14.
  • the group determination unit 14 receives the identification result of the other party from the other party identification unit 11.
  • the other party identification unit 11 determines the group to which the other party identified by the other party identification unit 11 belongs.
  • the group determination unit 14 is an example of the group determination means.
  • the group determination unit 14 transmits the determination result of the group to which the call partner belongs to the background sound selection unit 12 together with the identification result of the call partner.
  • the background sound selection unit 12 receives the identification result of the other party and the determination result of the group to which the other party belongs from the group determination unit 14.
  • the background sound selection unit 12 determines whether or not the other party has been registered in the setting list (S204). Specifically, the background sound selection unit 12 determines from the call partner identification unit 11 whether or not the caller ID received as the identification result of the call partner is included in the setting list.
  • the background sound selection unit 12 selects the background sound (here, BGM) according to the other party (and the group to which the other party belongs) (S205A).
  • the background sound selection unit 12 randomly selects the background sound (here, BGM) by referring to the BGM library (S205B).
  • the background sound selection unit 12 transmits the selected BGM data (background sound information) to the synthesis unit 13 together with the sound image localization information corresponding to the caller ID of the other party.
  • the synthesis unit 13 receives the background sound information selected according to the other party from the background sound selection unit 12. Further, the synthesis unit 13 receives the voice signal of the call from the reception unit 24.
  • the synthesis unit 13 synthesizes the voice signal of the received call and the BGM which is the background sound (S206). As a result, the synthesis unit 13 generates an audio signal with background sound.
  • the synthesis unit 13 transmits the generated audio signal with background sound to the output control unit 26.
  • the output control unit 26 receives an audio signal with background sound from the synthesis unit 13.
  • the output control unit 26 outputs the received audio signal with background sound from a speaker or the like (S207) (not shown).
  • the call partner identification unit 11 identifies the call partner.
  • the background sound selection unit 12 selects the background sound according to the identified call partner.
  • the synthesizing unit 13 synthesizes the voice signal of the call and the selected background sound. In this way, the voice signal obtained by synthesizing the voice signal of the call and the background sound is output. Therefore, the user can easily identify the other party by hearing only.
  • the group determination unit 14 determines the group to which the other party belongs.
  • the background sound selection unit 12 preferably selects BGM corresponding to the group to which the other party belongs as the background sound.
  • the speaker-side telephone device (the telephone device 100 described in the first embodiment) is a hearable device worn on the ear.
  • Hearable devices are a type of wearable device that applies otoacoustic emission authentication technology.
  • An example of a hearable device is described in Patent Document 3.
  • the communication device 100 includes a speaker that emits an acoustic signal (inspection signal) toward the inside of the speaker's ear, and a microphone that receives a reverberation signal from the inside of the ear.
  • the call device 100 transmits the echo signal received by the microphone as sensing information to the call device on the listener side (the call devices 200 and 300 described in the second and third embodiments).
  • the call partner identification unit 11 of the call devices 200 and 300 identifies the call partner based on the sensing information from the call device 100. Specifically, the call partner identification unit 11 uses a characteristic echo (acoustic characteristic) determined by the shape of the ear hole of the speaker as sensing information. The background sound selection unit 12 selects BGM based on the identification result of the other party based on the sensing information.
  • the shape of the ear canal is, for example, a shape extending from the ear canal to the eardrum, or a shape extending to the middle ear or the inner ear.
  • the calling device 100 is a wearable device other than a hearable device.
  • the communication device 100 according to this modification is a glass (glasses) type or wristband type wearable device.
  • the call partner identification unit 11 identifies the call partner.
  • the background sound selection unit 12 selects the background sound according to the identified call partner.
  • the synthesizing unit 13 synthesizes the voice signal of the call and the selected background sound. In this way, the voice signal obtained by synthesizing the voice signal of the call and the background sound is output. Therefore, the user can easily identify the other party by hearing only.
  • the call device on the speaker side is a wearable device such as a hearable device. Therefore, the call device on the listener side can identify the call partner (speaker) based on the sensing information acquired from the speaker's body, and can select the background sound according to the identified call partner.
  • Each component of the voice processing apparatus described in the first to fourth embodiments shows a block of functional units. Some or all of these components are realized by, for example, the information processing apparatus 900 as shown in FIG.
  • FIG. 12 is a block diagram showing an example of the hardware configuration of the information processing apparatus 900.
  • the information processing apparatus 900 includes the following configuration as an example.
  • -CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • program 904 Drive device 907 that reads and writes the recording medium 906.
  • -Communication interface 908 that connects to the communication network 909 -I / O interface 910 for inputting / outputting data -Bus 911 connecting each component
  • Each component of the voice processing device described in the first to fourth embodiments is realized by the CPU 901 reading and executing the program 904 that realizes these functions.
  • the program 904 that realizes the functions of each component is stored in, for example, a storage device 905 or ROM 902 in advance, and the CPU 901 loads the program 904 into the RAM 903 and executes the program 904 as needed.
  • the program 904 may be supplied to the CPU 901 via the communication network 909, or may be stored in the recording medium 906 in advance, and the drive device 907 may read the program and supply the program to the CPU 901.
  • the voice processing device described in the above embodiment is realized as hardware. Therefore, the same effect as that described in the above embodiment can be obtained.
  • the present invention can be used, for example, in portable game machines and VR (Virtual Realty) devices.
  • Voice processing device 11 Call partner identification unit 12 Background sound selection unit 13 Synthesis unit 14 Group judgment unit 24 Receiver 26 Output control unit 100 Speaker-side call device 200 Listener-side call device 300 Listener-side call device

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

ユーザが、聴覚のみによって、通話相手を簡単に識別することを可能にするため、通話相手識別手段は、通話相手を識別する。背景音響選択手段は、識別した通話相手に応じた背景音響を選択する。合成手段は、通話の音声信号と、選択した背景音響とを合成する。

Description

音声処理装置、音声処理方法、および記録媒体
 本発明は、音声処理装置、音声処理方法、および記録媒体に関し、特に、通話の音声信号を背景音響と合成する音声処理装置、音声処理方法、および記録媒体に関する。
 関連する音響AR(Augmented Reality)技術は、ユーザが複数の通話相手と同時に通話することを可能にする。例えば、特許文献1に記載された関連する技術は、姿勢情報センサおよび左右独立スピーカを用いて、ユーザにとって、通話相手から音声が聞こえてくると知覚する仮想的な位置を規定する(音像定位)。これにより、ユーザは、あたかも、複数の通話相手とともに、仮想的な空間を共有しているような感覚を得る。
 特許文献2には、ユーザの所定の操作によって、ユーザが指定した方向から聞こえる発話者情報(例えば通話相手の名前またはニックネーム)を、音声で出力することが記載されている。
特開2013-017027号公報 特開2012-103845号公報 国際公開第2018/198310号
 ディスプレイがある場合、ユーザは、ディスプレイに表示された通話相手の画像や通話相手の名前、ニックネームを見ることにより、通話相手がだれであるのかを判断することができる。しかしながら、ディスプレイがない場合、ユーザは、聴覚のみによって、通話相手がだれであるのかを判断しなければならない。ところが、特許文献1に記載の関連する技術では、通話相手が無言である場合、ユーザは、聴覚によって、通話相手がだれであるのかを知ることができない。また、特許文献2に記載の技術では、ユーザは、無言の通話相手がいることに気付かないので、発話者情報を音声で出力させるために、所定の操作を行う動機が生じない。
 本発明は、上記の課題に鑑みてなされたものであり、その目的は、ユーザが、聴覚のみによって、通話相手を簡単に識別することを可能にする音声処理装置等を提供することにある。
 本発明の一態様に係わる音声処理装置は、通話相手を識別する通話相手識別手段と、識別した前記通話相手に応じた背景音響を選択する背景音響選択手段と、選択した前記背景音響を、通話の音声信号と合成する合成手段とを備えている。
 本発明の一態様に係わる音声処理方法は、通話相手を識別し、識別した前記通話相手に応じた背景音響を選択し、選択した前記背景音響を、通話の音声信号と合成する。
 本発明の一態様に係わるコンピュータ読み取り可能な記録媒体に記録されたプログラムは、通話相手を識別することと、識別した前記通話相手に応じた背景音響を選択することと、選択した前記背景音響を、通話の音声信号と合成することとをコンピュータに実行させる。
 本発明の一態様によれば、ユーザが、聴覚のみによって、通話相手を簡単に識別できる。
実施形態1に係わる音声処理装置の構成を示すブロック図である。 実施形態1に係わる音声処理装置の動作を示すフローチャートである。 実施形態2に係わる話し手側の通話デバイスの構成を示すブロック図である。 実施形態2に係わる聞き手側の通話デバイスの構成を示すブロック図である。 通話相手を識別する通話者IDと、音像定位情報と、背景音響情報との間の対応関係を示す設定リストの一例を示す図である。 実施形態2に係わる聞き手側通話デバイスの動作の流れを示すフローチャートである。 複数の通話相手と通話しているユーザを示す。 実施形態3に係わる聞き手側の通話デバイスの構成を示すブロック図である。 実施形態3に係わる聞き手側通話デバイスの動作の流れを示すフローチャートである。 第1のグループが指定されたグループである場合に、指定されたグループと通話相手とが通話を行う場合の通話デバイスの動作を説明する図である。 第2のグループが指定されたグループである場合に、指定されたグループと通話相手とが通話を行う場合の通話デバイスの動作を説明する図である。 実施形態5に係わる情報処理装置のハードウェア構成を示す図である。
 〔実施形態1〕
 図1~図2を参照して、実施形態1について説明する。
 本実施形態1では、ユーザが、通話デバイスを用いて、通話相手と通話をしている。通話相手は、1人または複数人であってよい。ユーザが使用している通話デバイスを、以下では、ユーザの通話デバイスと呼ぶ。また、ユーザの通話相手が使用している通話デバイスを、以下では、通話相手の通話デバイスと呼ぶ。通話デバイスは、例えば、モバイル端末、コンピュータデバイス、または電話機である。通話デバイスは、音声デバイスとも呼ばれる。
 通話相手の通話デバイスと、ユーザの通話デバイスとの間で、通信ネットワーク、例えばインターネットあるいは電話回線、が接続されている。ユーザは、ユーザの通話デバイスを用いて、通話相手と通話している。
 (音声処理装置1)
 図1は、実施形態1に係わる音声処理装置1の構成を示すブロック図である。図1に示すように、音声処理装置1は、通話相手識別部11、背景音響選択部12、および合成部13を含む。以下で説明する音声処理装置1の各部の機能は、ユーザの通話デバイス(図示せず)が含むプロセッサが、メモリに読み込んだプログラムを実行することによって、ソフトウェアとして実現されてもよい。
 通話相手識別部11は、通話相手を識別する。通話相手識別部11は、通話相手識別手段の一例である。具体的には、通話相手識別部11は、通話相手の通話デバイス(図示せず)から、付帯情報を受信する。付帯情報は、通話相手の通話デバイスを識別する情報を含む。
 付帯情報は、例えば、通話相手の通話デバイスを識別する端末ID(Identification)である。あるいは、付帯情報は、通話相手の通話デバイスの電話番号であってもよい。しかしながら、付帯情報は、端末IDおよび電話番号に限定されない。付帯情報は、通話相手を識別する情報(例えば生体認証情報)であってもよい。
 通話相手識別部11は、通話相手の通話デバイスから受信した付帯情報に基づいて、通話相手を識別する。
 例えば、付帯情報が、通話相手の通話デバイスの端末IDである場合、通話相手識別部11は、図示しないメモリに格納された所有者リストのデータを参照する。所有者リストのデータ(以下、単に所有者リストと称する)には、端末IDと、通話デバイスの所有者に関する情報とが紐付けられている。
 通話相手識別部11は、端末IDに基づいて、通話相手を識別する。例えば、通話相手識別部11は、端末IDによって識別される通話デバイスの所有者が、通話相手であることを、所有者リストを参照することによって識別する。
 通話相手識別部11は、識別した通話相手を示す情報(例えば所有者リストに含まれる通話者ID)を、背景音響選択部12へ送信する。
 背景音響選択部12は、識別した通話相手に応じた背景音響を選択する。背景音響選択部12は、背景音響選択手段の一例である。例えば、背景音響選択部12は、通話者と背景音響との対応関係を示す通話者-背景音響テーブル(図示せず)を参照して、通話相手に応じた背景音響を選択する。通話者-背景音響テーブルは、メモリまたはストレージに格納される。
 背景音響は、主たる音声(ここでは、通話の音声)と重なるようにユーザに聞こえる音響である。一般的に、背景音響は、ユーザが主たる音声を聴くことを妨げないような小さい音量を有する。背景音響は、例えば、BGM(Back Ground Music)、環境音(アンビエント)、および音響効果のいずれかである。あるいは、背景音響は、これらの組み合わせであってもよい。
 例えば、通話者-背景音響テーブルは、通話相手を識別する通話者IDと、背景音響を示す情報(背景音響情報)とを対応付けている。通話者-背景音響テーブルは、ユーザ(ここでは聞き手)によって予め準備されていてもよい。
 あるいは、背景音響選択部12は、通話相手(ここでは話し手)ごとに異なる背景音響を、任意の方法で選択してもよい。例えば、背景音響選択部12は、付帯情報として取得したセンシング情報に基づいて、通話相手ごとに、異なる背景音響を割り当てる(実施形態4)。
 合成部13は、通話の音声信号と、選択した背景音響とを合成する。合成部13は、合成手段の一例である。具体的には、合成部13は、通話の音声信号に対して背景音響が重畳された音声信号(以下では、背景音響付き音声信号と呼ぶ)を生成する。
 ここで、通話の音声信号に対し、既存の他の背景音響が既に重畳されている場合、合成部13は、背景音響選択部12が選択した背景音響を、既存の他の背景音響とともに出力してもよい。あるいは、合成部13は、既存の他の背景音響を消音または音量を小さくする一方、背景音響選択部12が選択した背景音響を、既存の他の背景音響よりも大きい音量で出力してもよい。
 さらに、合成部13は、ユーザにとって、通話相手ごとに予め設定された仮想的な場所から、背景音響付き音声信号が聞こえるようにするため、背景音響付き音声信号に対し、音像定位処理を行ってもよい。
 具体的には、音像定位処理において、合成部13は、背景音響付き音声信号の音量及びプレゼンス等を調整する。これにより、合成部13は、背景音響付き音声信号の音像の仮想的な位置を規定する。スピーカ等から出力された背景音響付き音声信号を聴いたユーザは、合成部13によって規定された仮想的な位置に、背景音響付き音声信号の音像があるように知覚する。
 なお、合成部13は、通話相手識別部11が識別した通話相手が所属するグループに応じて、背景音響に関して、音の高さ、強さ、音色、またはその組み合わせを変換してもよい。なお、通話相手が複数のグループに分類されている構成について、実施形態3で説明する。
 合成部13は、このようにして生成した背景音響付き音声信号を出力する。
 (音声処理装置1の動作)
 図2を参照して、本実施形態1に係わる音声処理装置1の動作を説明する。図2は、音声処理装置1が実行する処理の流れを示すフローチャートである。
 図2に示すように、通話相手識別部11は、通話相手の通話デバイスから受信した付帯情報に基づいて、通話相手を識別する(S1)。
 通話相手識別部11は、識別した通話相手を示す情報(例えば通話者ID)を、背景音響選択部12へ送信する。
 背景音響選択部12は、通話相手識別部11から受信した情報(例えば通話者ID)に基づいて、通話相手に応じた背景音響を選択する(S2)。
 背景音響選択部12は、選択した背景音響を示す背景音響情報を、合成部13へ送信する。なお、ステップS1とステップS2の順序は逆または並行であってもよい。
 合成部13は、背景音響選択部12から、背景音響情報を受信する。また、合成部13は、通話の音声信号を受信する。
 合成部13は、背景音響情報が示す背景音響と、通話の音声信号とを合成する(S3)。そして、合成部13は、背景音響と、通話の音声信号とを合成することによって得られた音声信号(背景音響付き音声信号)を出力する。
 以上で、音声処理装置1の動作は終了する。
 (本実施形態の効果)
 本実施形態の構成によれば、通話相手識別部11は、通話相手を識別する。背景音響選択部12は、識別した通話相手に応じた背景音響を選択する。合成部13は、通話の音声信号と、選択した背景音響とを合成する。このように、通話の音声信号と背景音響とが合成されることによって得られた背景音響付き音声信号が出力される。そのため、ユーザは、聴覚のみによって、通話相手を簡単に識別できる。
 〔実施形態2〕
 図3~図7を参照して、実施形態2について説明する。本実施形態2では、話し手側の通話デバイスと、聞き手側の通話デバイスとに関して、それぞれ説明する。
 (話し手側の通話デバイス100)
 図3は、話し手側の通話デバイス100(以下、単に通話デバイス100と記載する)の構成を示すブロック図である。図3に示すように、通話デバイス100は、マイク101、メモリ102、および通信部103を含む。
 通話デバイス100は、話し手個人を生体認証するためのセンサまたはスイッチをさらに含んでいてもよい。例えば、通話デバイス100は、画像センサ(カメラ)によって、通話デバイス100を装着した話し手の姿勢に関する情報を取得してもよいし、通話相手を選択するためのスイッチまたはセンサをさらに含んでいてもよい。
 マイク101は、話し手の発言を集音する。マイク101は、話し手の発言を音声信号に変換し、通話の音声信号を通信部103へ送信する。
 メモリ102は、自機(つまり通話デバイス100)を識別するための端末ID、および、通話デバイス100の電話番号を示す情報を少なくとも記憶している。
 通信部103は、メモリ102から、端末IDまたは電話番号を示す情報を取得する。通信部103は、マイク101から受信した通話の音声信号を、聞き手側の通話デバイス200へ送信するとともに、メモリ102から取得した端末IDまたは電話番号を示す情報も、付帯情報として、聞き手側の通話デバイス200へ送信する。加えて、通信部103は、通話デバイス100が取得したセンシング情報も、付帯情報として、聞き手側の通話デバイス200へ送信してもよい。例えば、付帯情報は、通話相手の通話デバイスを識別するための端末ID(Identification)、または、通話相手の電話番号である。
 (聞き手側の通話デバイス200)
 図4は、聞き手側の通話デバイス200(以下、単に通話デバイス200と記載する)の構成を示すブロック図である。図4に示すように、通話デバイス200は、受信部24、音声処理装置2、および出力制御部26を含む。
 図4に示すように、受信部24は、通話デバイス100の通信部103から、音声信号および付帯情報(ここでは端末ID)を受信する。受信部24は、受信した音声信号を、音声処理装置2の合成部13へ送信する。また、受信部24は、受信した付帯情報を、音声処理装置2の通話相手識別部11へ送信する。
 (音声処理装置2)
 図4に示すように、本実施形態2に係わる音声処理装置2は、通話相手識別部11、背景音響選択部12、および合成部13を含む。前記実施形態1において、通話相手識別部11、背景音響選択部12、および合成部13の詳細を説明した。本実施形態2では、これらの各部に関して、簡単に説明する。
 通話相手識別部11は、通話相手を識別する。具体的には、通話相手識別部11は、通話相手の通話デバイスから受信した付帯情報に基づいて、通話相手を識別する。
 通話相手識別部11は、通話相手の識別結果を背景音響選択部12へ送信する。具体的には、通話相手識別部11は、通話相手を識別する通話者IDを、背景音響選択部12へ送信する。
 背景音響選択部12は、通話相手識別部11が識別した通話相手に応じた音響を選択する。具体的には、背景音響選択部12は、設定リスト(図5参照)を参照する。通話相手識別部11が識別した通話相手の通話者IDが、設定リストに登録されている場合、背景音響選択部12は、設定リストにおいて、通話相手の通話者IDと紐付いている一つのBGM(Back Ground Music)のデータを取得する。BGMは、背景音響の一種である。
 一方、通話相手識別部11が識別した通話相手が設定リストにまだ登録されていない場合、背景音響選択部12は、BGMライブラリ(図示せず)を参照して、設定リストに登録済のどの通話者IDとも紐付いていない一つのBGMのデータを、BGMライブラリからランダムに取得する。
 また、背景音響選択部12は、設定リストから、通話者IDと紐付いている音像定位情報を取得する。音像定位情報は、仮想空間における座標位置を示す情報である。
 背景音響選択部12は、選択したBGMのデータ(背景音響情報)と、音像定位情報とを、合成部13へ送信する。
 通話デバイス200の合成部13は、背景音響選択部12から、BGMのデータおよび音像定位情報を受信する。また合成部13は、受信部24から、通話の音声信号を受信する。合成部13は、通話の音声信号と、選択した背景音響とを合成する。具体的には、合成部13は、通話の音声信号に対して、背景音響(ここではBGM)が重畳された背景音響付き音声信号を生成する。
 ここで、既存の他の背景音響が、通話の音声信号に既に重畳されている場合、合成部13は、背景音響選択部12が選択したBGMを、既存の他の背景音響とともに出力してもよい。あるいは、合成部13は、既存の他の背景音響を消音または音量を小さくする一方、背景音響選択部12が選択したBGMを、既存の他の背景音響よりも大きい音量で出力してもよい。
 さらに、合成部13は、ユーザにとって、通話相手ごとに予め設定された仮想的な位置から、背景音響付き音声信号が聞こえるようにするため、背景音響付き音声信号に対し、上述した音像定位処理を行ってもよい。
 合成部13は、背景音響付き音声信号を、出力制御部26へ送信する。
 図4に示すように、出力制御部26は、合成部13から、背景音響付き音声信号を受信する。出力制御部26は、受信した背景音響付き音声信号を、図示しないスピーカ等のデバイスに出力させる。なお、出力制御部26は、音声処理装置2の構成要素であってもよい。
 (設定リスト)
 図5は、設定リストの一例を示すテーブルである。図5に示すように、設定リストには、通話相手を識別する付帯情報として通話者IDが含まれる。設定リストにおいて、音像定位情報および背景音響情報が、それぞれの通話者IDに対して紐付けられている。
 音像定位情報は、音像の仮想的な位置を示す。背景音響情報は、ユーザが、聴覚のみで、音像の仮想的な位置から、通話相手を識別することを可能にする。背景音響情報は、例えば、通話相手個人を識別するための通話者IDに紐づいたBGM、環境音、または音響効果のデータである。
 (通話デバイス200の動作)
 図6および図7を参照して、本実施形態2に係わる通話デバイス200の動作を説明する。図6は、通話デバイス200の動作の流れを示すフローチャートである。
 図6に示すように、ユーザ(図7のA)の通話デバイス200の受信部24は、通話相手(図7のB~F)の通話デバイス100から、通話の音声信号および付帯情報を受信する(S101)。
 受信部24は、音声処理装置2の合成部13へ、通話の音声信号を送信するとともに、通話相手識別部11へ、付帯情報(ここでは端末ID)を送信する。
 通話相手識別部11は、受信部24から、付帯情報を受信する。通話相手識別部11は、受信した付帯情報に基づいて、通話相手を識別する(S102)。通話相手は1または複数である。
 通話相手識別部11は、通話相手の識別結果を、背景音響選択部12へ送信する。具体的には、通話相手識別部11は、通話相手の識別に成功した場合、通話相手を識別する通話者IDを、背景音響選択部12へ送信する。一方、通話相手識別部11は、通話相手の識別に失敗した場合、空の通話者ID(None)を、背景音響選択部12へ送信する。
 背景音響選択部12は、通話相手識別部11から、通話相手の識別結果を受信する。背景音響選択部12は、通話相手が設定リストに登録済かどうかを判定する(S103)。具体的には、背景音響選択部12は、通話相手識別部11から受信した通話者IDが、設定リストに含まれるかどうかを判定する。
 通話相手が設定リストに登録済である場合(S103でYes)、背景音響選択部12は、通話相手に応じた背景音響(ここではBGM)を選択する(S104A)。一方、通話相手が設定リストに登録済でない場合(S103でNo)、背景音響選択部12は、BGMライブラリを参照して、設定リストに登録されたどの通話者IDとも紐付いていない背景音響(ここではBGM)をランダムに選択する(S104B)。
 背景音響選択部12は、選択したBGMのデータ(背景音響情報)を、通話相手の通話者IDに応じた音像定位情報とともに、合成部13へ送信する。
 合成部13は、背景音響選択部12から、通話相手に応じて選択された背景音響情報および音像定位情報を受信する。また、合成部13は、受信部24から、通話の音声信号を受信する。
 合成部13は、受信した通話の音声信号と、背景音響であるBGMとを合成する(S105)。これにより、合成部13は、背景音響付き音声信号を生成する。
 合成部13は、生成した背景音響付き音声信号を出力制御部26へ送信する。
 出力制御部26は、合成部13から、背景音響付き音声信号を受信する。出力制御部26は、受信した背景音響付き音声信号を出力する(S106)。
 以上で、通話デバイス200の動作は終了する。
 (具体例)
 ユーザ(図7のAで示す人物)が、通話デバイス200を用いて、複数の通話相手(図7のB~Fで示す人物)と同時に通話している。
 通話相手の通話デバイス100(図3)とユーザの通話デバイス200(図4)との間の回線が切断されない限り、通話相手が無言であっても、ユーザの通話デバイス200は、通話相手を識別する通話者IDと紐付けられたBGMを、背景音響として出力する。これにより、ユーザは、聴覚のみによって、無言の通話相手の存在を、直感的に知ることができる。
 ユーザが、通話デバイス200の通話終了ボタン(図示せず)を押下したとき、通話デバイス100と通話デバイス200との間の電話回線が切断される。このとき、通話デバイス200は、通話相手を識別する通話者IDと対応するBGMを消音(ミュート)する。これにより、ユーザは、通話が終了したことを直感的に知ることができる。
 (変形例)
 一変形例では、音声処理装置2の各部は、通話デバイス200の内部リソースを用いず、ネットワークサーバ上で、上述した処理を実行してもよい。
 (本実施形態の効果)
 本実施形態の構成によれば、通話相手識別部11は、通話相手を識別する。背景音響選択部12は、識別した通話相手に応じた背景音響を選択する。合成部13は、通話の音声信号と、選択した背景音響とを合成する。このように、通話の音声信号と背景音響とが合成されることによって得られた音声信号が出力される。そのため、ユーザは、聴覚のみによって、通話相手を簡単に識別できる。
 さらに、本実施形態の構成によれば、通話相手に応じた音像定位情報によって、通話相手ごとの仮想的な位置を規定する。これにより、ユーザは、あたかも仮想的な空間を共有しているように、通話相手と通話することができる。
 〔実施形態3〕
 本実施形態3では、通話相手が所属するグループを識別し、識別したグループに応じた処理を行う構成を説明する。
 (通話デバイス300)
 図8は、本実施形態3に係わる通話デバイス300の構成を示すブロック図である。図8に示すように、通話デバイス300は、前記実施形態2で説明した音声処理装置2の代わりに、音声処理装置3を含む。
 (音声処理装置3)
 図8に示すように、本実施形態3に係わる音声処理装置3は、通話相手識別部11、背景音響選択部12、および合成部13に加えて、グループ判定部14をさらに含む。すなわち、音声処理装置3は、グループ判定部14を含んでいる点で、前記実施形態2に係わる音声処理装置2とは構成が異なる。
 前記実施形態2において、通話相手識別部11、背景音響選択部12、および合成部13の詳細を説明した。本実施形態3において、これらの各部の基本的な機能は、前記実施形態2と同様である。したがって、本実施形態3では、これらの各部に関して、説明を省略する。
 通話相手識別部11は、受信部24から、付帯情報とともに、グループ指定情報を受信する。通話相手識別部11は、前記実施形態1と同様に、付帯情報に基づいて、通話相手を識別する。さらに、通話相手識別部11は、グループ指定情報に基づいて、ユーザが指定されたグループに所属するかどうかを判定する。
 ユーザが指定されたグループに所属していない場合、通話相手識別部11は、出力制御部26に対し、出力を消音(ミュート)するように指示する。ユーザが指定されたグループに所属している場合、通話相手識別部11は、通話相手の識別結果を、グループ判定部14へ送信する。
 グループ判定部14は、通話相手識別部11から、通話相手の識別結果を受信する。グループ判定部14は、通話相手識別部11が識別した通話相手が所属するグループを判定する。グループ判定部14は、グループ判定手段の一例である。グループ判定部14は、通話相手が所属するグループの判定結果を、通話相手の識別結果とともに、背景音響選択部12へ送信する。
 背景音響選択部12は、グループ判定部14から受信したグループの判定結果に基づいて、通話相手が所属するグループに応じたBGMを選択する。同じグループに属する複数の通話相手と対応する背景音響(つまり複数のBGM)は、同じ特徴(例えば、同じピッチ、同じ音量、または同じ音色)を有することが好ましい。
 (通話デバイス300の動作)
 図9~図11を参照して、本実施形態3に係わる通話デバイス300の動作を説明する。図9は、通話デバイス300の動作の流れを示すフローチャートである。
 図9に示すように、ユーザ(図10のB~Eのいずれか)の通話デバイス300の受信部24は、通話相手(図10のA)の通話デバイス100から、通話の音声信号および付帯情報を受信する(S201)。
 受信部24は、音声処理装置3の合成部13へ、通話の音声信号を送信するとともに、通話相手識別部11へ、付帯情報(例えば、端末IDまたは電話番号)およびグループ指定情報を送信する。グループ指定情報は、どのグループの聞き手に通話を聴取させるかを指定する情報である。通話を聴取することを許可するグループは、通話デバイス100に対する通話相手(図10のA)の操作によって、指定されてもよい。
 通話相手識別部11は、受信部24から、付帯情報およびグループ指定情報を受信する。通話相手識別部11は、受信したグループ指定情報に基づいて、ユーザ(すなわち通話デバイス300の持ち主)が指定されたグループに所属するかどうかを判定する(S202)。
 ユーザが指定されたグループに所属していない場合(S202でNo)、通話相手識別部11は、出力制御部26に対し、出力を消音(ミュート)するように指示する(S208)。
 図10に示す例では、ユーザが、第2のグループ(DまたはE)に所属する場合、通話相手識別部11は、出力制御部26に対し、ミュート指示を送信する。一方、図11に示す例では、ユーザが、第1のグループ(BまたはC)に所属する場合、通話相手識別部11は、出力制御部26に対し、ミュート指示を送信する。
 一方、ユーザが指定されたグループに所属している場合(S202でYes)、通話相手識別部11は、付帯情報に基づいて、通話相手を識別する(S203)。通話相手識別部11は、グループ判定部14へ、通話相手の識別結果を送信する。
 図10に示す例では、ユーザが、第1のグループ(BまたはC)に所属する場合、通話相手識別部11は、グループ判定部14へ、通話相手の識別結果を送信する。一方、図11に示す例では、ユーザが、第2のグループ(DまたはE)に所属する場合、通話相手識別部11は、グループ判定部14へ、通話相手の識別結果を送信する。
 具体的には、通話相手識別部11は、通話相手の識別に成功した場合、通話相手を識別する通話者IDを、グループ判定部14へ送信する。一方、通話相手識別部11は、通話相手の識別に失敗した場合、空の通話者ID(None)を、グループ判定部14へ送信する。
 グループ判定部14は、通話相手識別部11から、通話相手の識別結果を受信する。通話相手識別部11は、通話相手識別部11によって識別された通話相手が所属するグループを判定する。グループ判定部14は、グループ判定手段の一例である。グループ判定部14は、通話相手が所属するグループの判定結果を、通話相手の識別結果とともに、背景音響選択部12へ送信する。
 背景音響選択部12は、グループ判定部14から、通話相手の識別結果、および、通話相手が所属するグループの判定結果を受信する。背景音響選択部12は、通話相手が設定リストに登録済かどうかを判定する(S204)。具体的には、背景音響選択部12は、通話相手識別部11から、通話相手の識別結果として受信した通話者IDが、設定リストに含まれるかどうかを判定する。
 通話相手が設定リストに登録済である場合(S204でYes)、背景音響選択部12は、通話相手(およびその所属するグループ)に応じた背景音響(ここではBGM)を選択する(S205A)。一方、通話相手が設定リストに登録済でない場合(S204でNo)、背景音響選択部12は、BGMライブラリを参照して、背景音響(ここではBGM)をランダムに選択する(S205B)。
 背景音響選択部12は、選択したBGMのデータ(背景音響情報)を、通話相手の通話者IDに応じた音像定位情報とともに、合成部13へ送信する。
 合成部13は、背景音響選択部12から、通話相手に応じて選択された背景音響情報を受信する。また、合成部13は、受信部24から、通話の音声信号を受信する。
 合成部13は、受信した通話の音声信号と、背景音響であるBGMとを合成する(S206)。これにより、合成部13は、背景音響付き音声信号を生成する。
 合成部13は、生成した背景音響付き音声信号を出力制御部26へ送信する。
 出力制御部26は、合成部13から、背景音響付き音声信号を受信する。出力制御部26は、受信した背景音響付き音声信号を、図示しないスピーカ等から出力する(S207)。
 以上で、通話デバイス300の動作は終了する。
 (本実施形態の効果)
 本実施形態の構成によれば、通話相手識別部11は、通話相手を識別する。背景音響選択部12は、識別した通話相手に応じた背景音響を選択する。合成部13は、通話の音声信号と、選択した背景音響とを合成する。このように、通話の音声信号と背景音響とが合成されることによって得られた音声信号が出力される。そのため、ユーザは、聴覚のみによって、通話相手を簡単に識別できる。
 さらに、本実施形態の構成によれば、グループ判定部14は、通話相手が所属するグループを判定する。背景音響選択部12は、通話相手が所属するグループに応じたBGMを、背景音響として選択することが好ましい。
 これにより、ユーザは、BGMの特徴(例えば、音の高さ、強さ、音色)によって、通話相手が所属するグループを簡単に識別することができる。
 〔実施形態4〕
 本実施形態4において、話し手側の通話デバイス(前記実施形態1で説明した通話デバイス100)は、耳に装着されるヒアラブルデバイスである。ヒアラブルデバイスは、耳音響認証技術を応用したウェアラブルデバイスの一種である。ヒアラブルデバイスの一例が、特許文献3に記載されている。
 本実施形態4では、通話デバイス100は、話し手の耳の内部へ向けて、音響信号(検査信号)を放出するスピーカと、耳の内部からの反響信号を受信するマイクとを含む。通話デバイス100は、マイクが受信した反響信号を、センシング情報として、聞き手側の通話デバイス(前記実施形態2、3で説明した通話デバイス200、300)へ送信する。
 本実施形態4において、通話デバイス200、300の通話相手識別部11は、通話デバイス100からのセンシング情報に基づいて、通話相手を識別する。具体的には、通話相手識別部11は、話し手の耳の穴の形状によって決まる特徴的な反響(音響特性)を、センシング情報として用いる。背景音響選択部12は、センシング情報に基づく通話相手の識別結果に基づいて、BGMを選択する。耳の穴の形状とは、例えば、外耳道から鼓膜までの形状、あるいは、中耳または内耳まで延伸する形状である。
 (変形例)
 一変形例では、通話デバイス100は、ヒアラブルデバイス以外のウェアラブルデバイスである。例えば、本変形例に係わる通話デバイス100は、グラス(メガネ)型またはリストバンド型のウェアラブルデバイスである。
 (本実施形態の効果)
 本実施形態の構成によれば、通話相手識別部11は、通話相手を識別する。背景音響選択部12は、識別した通話相手に応じた背景音響を選択する。合成部13は、通話の音声信号と、選択した背景音響とを合成する。このように、通話の音声信号と背景音響とが合成されることによって得られた音声信号が出力される。そのため、ユーザは、聴覚のみによって、通話相手を簡単に識別できる。
 さらに、本実施形態の構成によれば、話し手側の通話デバイスは、ヒアラブルデバイス等のウェアラブルデバイスである。したがって、聞き手側の通話デバイスは、話し手の身体から取得したセンシング情報に基づいて、通話相手(話し手)を識別し、識別した通話相手に応じた背景音響を選択することができる。
 〔実施形態5〕
 図12を参照して、実施形態5について以下で説明する。
 (ハードウェア構成について)
 前記実施形態1~4で説明した音声処理装置の各構成要素は、機能単位のブロックを示している。これらの構成要素の一部又は全部は、例えば図12に示すような情報処理装置900により実現される。図12は、情報処理装置900のハードウェア構成の一例を示すブロック図である。
 図12に示すように、情報処理装置900は、一例として、以下のような構成を含む。
  ・CPU(Central Processing Unit)901
  ・ROM(Read Only Memory)902
  ・RAM(Random Access Memory)903
  ・RAM903にロードされるプログラム904
  ・プログラム904を格納する記憶装置905
  ・記録媒体906の読み書きを行うドライブ装置907
  ・通信ネットワーク909と接続する通信インタフェース908
  ・データの入出力を行う入出力インタフェース910
  ・各構成要素を接続するバス911
 前記実施形態1~4で説明した音声処理装置の各構成要素は、これらの機能を実現するプログラム904をCPU901が読み込んで実行することで実現される。各構成要素の機能を実現するプログラム904は、例えば、予め記憶装置905やROM902に格納されており、必要に応じてCPU901がRAM903にロードして実行される。なお、プログラム904は、通信ネットワーク909を介してCPU901に供給されてもよいし、予め記録媒体906に格納されており、ドライブ装置907が当該プログラムを読み出してCPU901に供給してもよい。
 (本実施形態の効果)
 本実施形態の構成によれば、前記実施形態において説明した音声処理装置が、ハードウェアとして実現される。したがって、前記実施形態において説明した効果と同様の効果を奏することができる。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2019年7月24日に出願された日本出願特願2019-135799を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明は、例えば、携帯型ゲーム機およびVR(Virtual Realty)デバイスに利用することができる。
   1 音声処理装置
  11 通話相手識別部
  12 背景音響選択部
  13 合成部
  14 グループ判定部
  24 受信部
  26 出力制御部
 100 話し手側の通話デバイス
 200 聞き手側の通話デバイス
 300 聞き手側の通話デバイス

Claims (9)

  1.  通話相手を識別する通話相手識別手段と、
     識別した前記通話相手に応じた背景音響を選択する背景音響選択手段と、
     選択した前記背景音響を、通話の音声信号と合成する合成手段と
    を備えた
     音声処理装置。
  2.  前記通話相手識別手段は、どのグループに所属する聞き手に通話を聴取させるかを指定するグループ指定情報を受信し、受信した前記グループ指定情報に基づいて、音声信号を出力する出力制御手段の出力を消音させる
     ことを特徴とする請求項1に記載の音声処理装置。
  3.  識別した前記通話相手が所属するグループを判定するグループ判定手段をさらに備え、
     前記背景音響選択手段は、前記通話相手が所属するグループの判定結果に応じて、前記背景音響を選択する
     ことを特徴とする請求項1または2に記載の音声処理装置。
  4.  前記背景音響選択手段は、識別した前記通話相手に応じて、前記通話の音声信号の音像を定位させる仮想的な位置を規定する
     ことを特徴とする請求項1から3のいずれか1項に記載の音声処理装置。
  5.  前記背景音響は、BGM(Back Ground Music)、環境音、および音響効果のうちのいずれかである
     ことを特徴とする請求項1から4のいずれか1項に記載の音声処理装置。
  6.  前記通話相手識別手段は、前記通話相手の身体から取得したセンシング情報に基づいて前記通話相手を識別する
     ことを特徴とする請求項1から5のいずれか1項に記載の音声処理装置。
  7.  請求項1から6のいずれか1項に記載の音声処理装置と、
     前記通話の音声信号を受信する受信手段と、
     前記音声処理装置の前記合成手段が合成した音声信号を出力する出力制御手段とを備えた
     通話デバイス。
  8.  通話相手を識別し、
     識別した前記通話相手に応じた背景音響を選択し、
     選択した前記背景音響を、通話の音声信号と合成する
     音声処理方法。
  9.  通話相手を識別することと、
     識別した前記通話相手に応じた背景音響を選択することと、
     選択した前記背景音響を、通話の音声信号と合成することと
     をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体。
PCT/JP2020/026903 2019-07-24 2020-07-09 音声処理装置、音声処理方法、および記録媒体 WO2021014990A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021533934A JP7375817B2 (ja) 2019-07-24 2020-07-09 音声処理装置、通話デバイス、音声処理方法、およびプログラム
US17/627,948 US20220293084A1 (en) 2019-07-24 2020-07-09 Speech processing device, speech processing method, and recording medium
EP20844448.9A EP4007243A4 (en) 2019-07-24 2020-07-09 SPEECH PROCESSING DEVICE, SPEECH PROCESSING METHOD AND RECORDING MEDIA

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-135799 2019-07-24
JP2019135799 2019-07-24

Publications (1)

Publication Number Publication Date
WO2021014990A1 true WO2021014990A1 (ja) 2021-01-28

Family

ID=74192870

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/026903 WO2021014990A1 (ja) 2019-07-24 2020-07-09 音声処理装置、音声処理方法、および記録媒体

Country Status (4)

Country Link
US (1) US20220293084A1 (ja)
EP (1) EP4007243A4 (ja)
JP (1) JP7375817B2 (ja)
WO (1) WO2021014990A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023176389A1 (ja) * 2022-03-15 2023-09-21 ソニーグループ株式会社 情報処理装置、情報処理方法、及び記録媒体

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001060993A (ja) * 1999-08-24 2001-03-06 Yamaha Corp 電話端末装置および通信方法
JP2005295196A (ja) * 2004-03-31 2005-10-20 Kenwood Corp 通信方法、送信方法及び装置、受信方法及び装置
WO2006080133A1 (ja) * 2005-01-25 2006-08-03 Matsushita Electric Industrial Co., Ltd. 音声対話装置
JP2007124679A (ja) * 2003-06-27 2007-05-17 Jin-Ho Lee 個人携帯用端末機における通話背景音提供方法
JP2019110450A (ja) * 2017-12-19 2019-07-04 日本電気株式会社 通話端末、話者識別サーバ、通話システム、通話端末の処理方法、話者識別サーバの処理方法及びプログラム
JP2019135799A (ja) 2015-11-30 2019-08-15 台湾積體電路製造股▲ふん▼有限公司Taiwan Semiconductor Manufacturing Company,Ltd. 集積チップおよびその製造方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6947728B2 (en) * 2000-10-13 2005-09-20 Matsushita Electric Industrial Co., Ltd. Mobile phone with music reproduction function, music data reproduction method by mobile phone with music reproduction function, and the program thereof
JP3811158B2 (ja) 2003-12-26 2006-08-16 株式会社エヌ・ティ・ティ・ドコモ 通知装置、端末装置、通知システム及び通知方法
US20150163342A1 (en) * 2004-07-30 2015-06-11 Searete Llc Context-aware filter for participants in persistent communication
FR2880500B1 (fr) * 2004-12-30 2007-04-06 Radiotelephone Sfr Procede et equipement permettant de superposer un fond sonore a une communication telephonique
KR100679080B1 (ko) * 2005-05-27 2007-02-05 삼성전자주식회사 배경음악을 제공하는 이동통신 단말기 및 이의 배경음악선택 방법
KR20080079098A (ko) * 2007-02-26 2008-08-29 (주)씨컴인터내셔널 통화중 양방향 배경영상 제공 이동통신 단말기
US8325896B2 (en) * 2008-11-20 2012-12-04 Citrix Systems, Inc. System and method for dynamic audio conference call configuration and management
US10009475B2 (en) * 2014-02-28 2018-06-26 Dolby Laboratories Licensing Corporation Perceptually continuous mixing in a teleconference
CN107809541A (zh) 2017-11-13 2018-03-16 北京奇虎科技有限公司 一种在通话过程中播放背景音乐的方法、装置和移动终端
US10524053B1 (en) * 2018-06-22 2019-12-31 EVA Automation, Inc. Dynamically adapting sound based on background sound

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001060993A (ja) * 1999-08-24 2001-03-06 Yamaha Corp 電話端末装置および通信方法
JP2007124679A (ja) * 2003-06-27 2007-05-17 Jin-Ho Lee 個人携帯用端末機における通話背景音提供方法
JP2005295196A (ja) * 2004-03-31 2005-10-20 Kenwood Corp 通信方法、送信方法及び装置、受信方法及び装置
WO2006080133A1 (ja) * 2005-01-25 2006-08-03 Matsushita Electric Industrial Co., Ltd. 音声対話装置
JP2019135799A (ja) 2015-11-30 2019-08-15 台湾積體電路製造股▲ふん▼有限公司Taiwan Semiconductor Manufacturing Company,Ltd. 集積チップおよびその製造方法
JP2019110450A (ja) * 2017-12-19 2019-07-04 日本電気株式会社 通話端末、話者識別サーバ、通話システム、通話端末の処理方法、話者識別サーバの処理方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023176389A1 (ja) * 2022-03-15 2023-09-21 ソニーグループ株式会社 情報処理装置、情報処理方法、及び記録媒体

Also Published As

Publication number Publication date
JP7375817B2 (ja) 2023-11-08
EP4007243A1 (en) 2022-06-01
JPWO2021014990A1 (ja) 2021-01-28
EP4007243A4 (en) 2022-09-21
US20220293084A1 (en) 2022-09-15

Similar Documents

Publication Publication Date Title
US11848022B2 (en) Personal audio assistant device and method
US8488820B2 (en) Spatial audio processing method, program product, electronic device and system
US10111020B1 (en) Systems and methods for initiating action based on audio output device
US9300795B2 (en) Voice input state identification
JP4992591B2 (ja) 通信システム及び通信端末
US20220343929A1 (en) Personal audio assistant device and method
US20050107130A1 (en) Telephone silent conversing (TSC) system
WO2021014990A1 (ja) 音声処理装置、音声処理方法、および記録媒体
JP2005269231A (ja) 携帯端末
JPWO2020022154A1 (ja) 通話端末、通話システム、通話端末の制御方法、通話プログラム、および記録媒体
CN116057928A (zh) 信息处理装置、信息处理终端、信息处理方法和程序
JPH11133998A (ja) 音声信号伝送方法、その装置及びプログラム記録媒体
JP2006114942A (ja) 音声提示システム、音声提示方法、この方法のプログラム、および記録媒体
JP2005094313A (ja) 携帯端末

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20844448

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021533934

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2020844448

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2020844448

Country of ref document: EP

Effective date: 20220224